AWS 기술 블로그
HAQM Bedrock을 활용한 연말정산 업무 효율화: 메타넷사스의 MetaPay가 전년대비 생산성을 3.8배 향상한 사례
메타넷사스는 메타넷그룹이 20여 년간 쌓아온 솔루션 및 비즈니스 경험을 바탕으로 설립한 SaaS 전문 법인입니다. 페이롤 솔루션 메타페이(MetaPay)를 통해 독보적인 페이롤 전문기업으로 성장해 왔으며, 페이롤 역량을 내재화하려는 트렌드에 발맞춰 대기업부터 스타트업까지 수많은 고객사의 디지털 전환을 돕고 있습니다.
이번에 메타넷사스는 연말정산을 보다 정확하고 신속하게 수행하기 위해 메타페이에 생성형AI 기술을 도입했습니다. HAQM Bedrock을 활용하여 메타페이 연말정산 시스템을 고도화함으로써 업무 생산성을 전년대비 무려 3.8배 이상 향상할 수 있었습니다. 이는 메타넷사스 내 연말정산 작업에 투입되는 인력들이 상담에 들이는 시간을 평균적으로 계산해 파악한 결과로, 단순 상담 이외 요청된 자료 서치와 검토 등 일련의 업무 또한 감소한 것을 생각하면, 실제 업무 효율 증가율은 더 클 것으로 판단됩니다. 물론 이처럼 큰 성과를 내기 전까지 여러 시행착오가 있었으나, HAQM Bedrock이 아주 적합한 해결책이 되어 주었습니다.
메타페이 연말정산 시스템에 생성형 AI 챗봇을 도입한 배경
연말정산은 모든 회사가 동일한 기간에 시행되므로, 이 시기에 임직원의 문의가 급증합니다. 연말 정산을 진행하는 회사 내 임직원들은 홈텍스에서 자료 다운로드, 연말 정산 진행, 환급금 확인 등, 모든 단계에서 메타페이 담당자에게 다양한 문의를 하게 됩니다. 이 때 담당자는 짧은 기간 내에 모든 업무를 처리해야 하므로 임직원 문의에 신속하게 응대하기 어려워지고, 이로 인한 임직원의 불만이 증가하는 문제가 발생합니다.
메타넷사스는 이러한 문제를 해결하고자 2022년 메타페이 내 연말정산 Q&A용 AI (인공지능) 챗봇을 도입하였으나, 자연어 이해도가 낮아 사용자의 문의를 충분히 해결하는 데 한계가 있었습니다. 또한, AI 모델에 해마다 개정되는 세법을 적용하기 위해 규칙 업데이트 및 모델 추가 학습을 하는데 많은 시간과 비용이 소요되었습니다. 이에 생성형AI 기술을 통해 사용자의 기대 수준에 맞추고자 기존 AI 챗봇의 고도화를 추진하게 되었습니다.
그림1. 연말정산 시행 프로세스
생성형 AI를 통해 해결하고자 한 과제
생성형 AI 기술 도입을 통해 해결해야 하는 과제는 아래와 같습니다.
1. 연말정산 기간 세무관련 문의 급증으로 인한 담당자의 업무 부담 해소
담당자 1인 당 처리해야 할 업무량이 급증하게 되며, 반복적인 기초 문의로 인해 업무 효율성이 저하되는 문제가 있습니다.
2. 즉시 답변을 제공받지 못한 임직원의 불만 급증과 검색을 위한 자원 낭비 축소
임직원들은 실시간 답변 지연으로 인해 불편을 느끼고 있으며, 임직원이 직접 정보를 검색할 경우 과도한 시간이 소요될 뿐만 아니라 부정확한 정보로 인해 오류가 발생하는 경우도 있습니다.
3. 해마다 개정되는 세법에 대한 전문적이고 정확한 답변 제공
기존 AI 모델 방식에서는 신규 정보를 적용하기 위해 규칙 업데이트 또는 모델 추가 학습이 필요하였고, 이에 많은 시간과 비용이 발생하였습니다.
4. 각 회사마다 다른 연말정산 시행 방법과 시스템에 대한 답변 제공
메타페이를 사용하는 회사마다 연말정산 프로세스, 공제항목 처리 절차 등이 상이한 경우가 있습니다. 이에 최소한의 노력으로 회사별 맞춤형 답변을 제공할 수 있어야 합니다.
이러한 과제들을 해결하기 위해 메타넷사스는 다양한 생성형 AI 솔루션을 검토하였으며, 최종적으로 3개사 솔루션에 대한 검토 및 PoC를 진행하였습니다.
메타페이에 적합한 생성형 AI 솔루션 선정을 위한 POC 진행
24년 2월부터 7월까지 글로벌 기업 A사, 국내기업 B사, 그리고 AWS와 POC를 진행했습니다. 각 사에게 연말정산 Q&A 500건과 국세청 FAQ 자료를 제공하여 Test를 진행한 결과, HAQM Bedrock을 메타페이에 적용할 생성형 AI 솔루션으로 최종 선정하였습니다. HAQM Bedrock을 최종 선정한 이유는 아래와 같습니다.
1. 한국어 세법 이해도 우수
연말정산 세법은 ‘당해 연도(當該年度)’, ‘종전근무지(從前勤務地)’ 등과 같은 일본식 단어가 많습니다. 특히 일반적으로 사용하는 단어인 ‘올해’, ’24년’, ‘금년도’와 같은 표현을 ‘당해 연도’라는 전문 용어와 동일하게 인식하는지, 또한 ‘이전 직장’, ‘앞 직장’, ‘이전 회사’ 등의 일상 표현과 ‘종전근무지’라는 법률 용어를 동일하게 인식하는지 여부가 중요합니다. 이러한 특수 분야 단어의 인식 능력에 대한 POC 결과, 일본식 한국어 세법 용어의 인식률에서 HAQM Bedrock의 Claude 모델군이 우수한 성능을 보였습니다.
그림2. 연말정산 세법 용어와 사용자가 실제 입력하는 단어
2. 빠른 응답 속도
글로벌 기업 A사의 ChatGPT-4, 국내 기업 B사의 자체 개발 모델, 그리고 HAQM Bedrock의 Claude 모델을 비교 분석한 결과, 즉각적인 응답 속도 측면에서는 HAQM Bedrock의 Claude 모델이 가장 우수한 성능을 보였습니다. 특히, HAQM Bedrock에서 프롬프트 설정이 간편하여 “한국어로 간결하게 답변하라”는 요청도 즉각 반영되었고, 그 결과 급여 담당자들과 함께 진행한 테스트에서 HAQM Bedrock이 가장 높은 점수를 받았습니다.
3. 다양한 모델과 비용 효율성
HAQM Bedrock은 다양한 파운데이션 모델을 지원합니다. 따라서 여러 모델의 테스트 및 비교를 통해 메타페이 연말정산 서비스에 가장 맞는 최적의 모델을 선택할 수 있었습니다. 특히, PoC에서 좋은 성능을 보인 Claude 3 Haiku 모델은 다른 모델 대비 훨씬 저렴한 비용으로 스마트하고 빠르게 작동하는 걸 확인할 수 있었습니다.
연말정산이 완료된 후, 실제 사용량을 분석한 결과, 10만 명 이상의 임직원이 100토큰 이상의 질문과 답변을 주고 받았으며, 그 결과 Claude 3 Haiku 모델을 사용한 전체 비용은 A사와 B사가 제시한 LLM 금액의 최대 1/300 수준으로 저렴했습니다. 또한, 타사에서는 LLM 구축을 위해 프롬프트 엔지니어가 별도로 필요하여 RAG 환경 구축 비용 뿐만 아니라 LLM 사용료, 프롬프트 엔지니어 비용, 라이선스 비용 등이 추가로 발생했지만, AWS의 경우 LLM에 대한 입력 토큰 및 출력 토큰 비용만 지불하면 되어 비용 효율성이 매우 높았습니다.
4. 높은 정확도
연말정산 세법은 매우 복잡한 특성을 가지고 있습니다. 인적공제가 가능한 사람도 개인의 소득, 상황 등 다양한 변수에 따라 공제가 불가능한 경우가 있으며, 그 반대의 경우도 존재합니다. 2024년도 연말정산 관련 질문들을 분석한 결과, 대부분의 사용자가 ‘전세 공제 가능’, ‘공제 대상’과 같이 주어가 생략된 단답형으로 모호하게 질문하는 경향이 있었습니다. 이처럼 사용자들이 상세하게 질문하지 않는 상황에서도, 세법상 99%가 아닌 100% 정확한 답변이 요구되는 연말정산의 특성을 고려할 때, 담당자들이 오랜 시간 테스트를 진행한 결과 질문 이해도, 맥락 파악, 정확한 답변 제공 등에서 HAQM Bedrock은 높은 만족도를 보였습니다.
그림3. 실제 이용자 질문과 답변
5. 쉬운 접근 및 프롬프트 등 설정의 용이성
테스트 환경을 구성하기 위해서 타사에서는 프롬프트 엔지니어가 별도로 필요한 수준이었으나, HAQM Bedrock의 경우 윈도우의 디스플레이 설정 화면만큼 간단하게 테스트 환경을 구성할 수 있었으며, 테스트를 진행하면서 프롬프트 등의 설정 또한 단일 API에서 다양한 값으로 손쉽게 변경함으로써 결과 비교 및 최적의 파라미터 값을 설정할 수 있었습니다. 이러한 이유로 연말정산 시행 직전의 빠듯한 일정에서도 기민하게 대처가 가능했습니다.
6. AWS의 빠르고 즉각적인 기술지원
연말정산 시행을 앞두고 데이터 저장소에 누락된 정보가 발견되어 추가 데이터가 필요했으며, 연말정산 세법 외에도 메타페이 시스템 안내 자료까지 추가하여야 했습니다. 이러한 긴급 작업들이 서비스 런칭 직전에 몰리면서 담당자들은 연말정산 준비와 더불어 추가 데이터 검증까지 진행하느라 어려움을 겪었습니다. 이 상황에서 AWS에 지원을 요청했고, 흔쾌히 직접 현장을 방문하여 내용 검토와 프롬프트 점검 및 수정 작업을 꼼꼼히 도와주었습니다. 뿐만 아니라 수시로 발생하는 문의사항에도 전화와 이메일을 통해 신속하고 친절하게 대응해 주어, 서비스를 성공적으로 런칭하는 데 결정적인 도움이 되었습니다.
솔루션 아키텍처
메타페이 연말정산 챗봇이 어떤 아키텍처로 구현되었는지 보겠습니다. 그림4는 메타페이 연말정산 생성형 AI챗봇 아키텍처로서 HAQM Bedrock의 Claude 3 Haiku 모델과 사용자의 엔드 투 엔드 RAG 워크플로를 관리하는 HAQM Bedrock 지식 기반 (Knowledge Bases)을 사용하였습니다. 데이터 소스로는 csv 파일 형태의 연말정산 자료들과 pdf 파일 형태의 연말정산 FAQ 자료들을 사용하였습니다.
회사 임직원들이 챗봇 클라이언트를 통해 연말정산 관련 문의를 하면, Bedrock은 검색 증강 생성을 통해 질문에 대한 가장 적절한 답변을 하게 됩니다.
그림4. 메타페이 연말정산 생성형 AI챗봇 아키텍처
HAQM Bedrock 지식 기반 구축 과정 중 발생한 과제
세법 자료를 활용하여 연말정산 생성형 AI 챗봇을 구성하는 과정에서 성능 및 비용 최적화가 필요하였습니다.
1. 성능 최적화
처음에는 400p 분량의 연말정산 세법자료를 PDF형태로 지식 기반 내 데이터 저장소에 업로드 하였으나 PDF 파일의 복잡한 구조로 인해 낮은 인식률 문제가 발생했습니다. 그래서, 연말정산 세법자료 PDF 파일 외에 추가로 발생할 수 있는 할루시네이션을 방지하기 위해 CSV 형식으로 된 질의/응답/카테고리의 구조화된 파일을 데이터 소스로 추가하여 검색증강생성을 구성하였습니다.
또한 유사 의미에 대한 인식률이 낮은 항목은 별도 파일로 추가하였으며, 시스템 사용법이나 연말정산 시행 안내 등의 자료도 함께 반영하였습니다. 이러한 작업들을 별도의 코딩 작업 없이 AWS 콘솔 내에서 즉시 수행 할 수 있었으며, 콘솔에서 다양한 모델을 선택하여 바로 테스트가 가능하여 손쉽고 빠르게 검색증강생성 환경을 구축할 수 있었습니다.
2. 비용 최적화
필요한 데이터 소스가 잘 갖추어 진 후에는 Claude 3 Haiku로도 목표 성능을 달성할 수 있었기에 비용 효율성을 달성하기 위해 기존에 사용했었던 Claude 3.5 Sonnet 모델이 아닌 Claude 3 Haiku 를 적용하였습니다. 환경 개발 막바지에 결정된 부분이었지만 Bedrock의 단일화된 API 호출 형태로 개발된 코드에서 단순히 파운데이션 모델명만 교체함으로써 바로 변경된 모델을 적용할 수 있었습니다.
프롬프트 엔지니어링 및 최적화
연말정산 생성형 AI 챗봇 개발 중에 많은 프롬프트 최적화 작업을 하였습니다. 그 중에 대표적인 최적화 내용 몇 가지를 아래에 소개합니다.
첫 번째로, ‘세무 전문가로’ 설정한 페르소나로 인해 할루시네이션이 발생하였으며, 친절한 답변 제공 프롬프트로 인해 설명이 장황해지고 불필요한 문장이 포함되는 문제가 있었습니다. 또한 ‘예’ 또는 ‘아니오’로 먼저 답변하도록 설정하였으나 경우에 따라 반대의 내용이 제공되는 오류도 발생하였습니다. 이를 보완하기 위해 지식 기반을 100% 참고하여 답변을 생성하도록 하고, 불필요한 생성이 이루어지지 않도록 프롬프트를 수정하였습니다. 아울러 답변의 출처를 명확히 표시하고 보다 간결한 형식으로 제공되도록 조정하였습니다.
두 번째로, 사용자 패턴을 고려하였을 때, 후속 질문의 형태보다는 연말정산 세법에 대한 개별적인 질문을 새로 하는 경우가 많았습니다. 처음에는 맥락 유지를 위해 ‘세션 초기화’ 값을 3으로 설정하였으나 이로 인해 다양한 공제 가능 항목을 질문할 때 맥락이 계속 유지되어 세션을 종료하고 다시 접속해야 하는 번거로움이 발생했습니다. 이에 따라 세션 초기화 값을 ‘1’로 조정하여 맥락 유지가 아닌 세션 갱신을 통해 새로운 응답을 하도록 구현하였습니다.
마지막으로, 연말정산에 대한 신뢰도 높은 답변을 제공하기 위해 HAQM Bedrock LLM의 파라미터 설정 중 Temperature를 0으로 설정하였습니다. Temperature는 모델이 특이하거나 예상치 못한 단어를 선택할 가능성을 높이거나 낮출 때 사용할 수 있는 파라미터로서 Temperature 값이 낮을수록 예상할 수 있고 더 일반적인 단어들이 생성됩니다. 또한, LLM이 결과를 생성할 때의 후보 단어들을 제한하는 용도의 파라미터들인 Top-P와 Top-K 값을 테스트를 통해 적절한 값으로 설정함으로써 사용자에게 신뢰도 높은 답변을 제공 할 수 있었습니다.
그림5. 관리자용 설정 화면 (좌측)과 실제 사용자용 연말정산 챗봇 화면 (우측)
솔루션 도입 효과 및 향후 계획
HAQM Bedrock 기반 연말정산 챗봇 도입 후, 담당자로 유입되는 직접 문의가 약 40% 감소되는 효과가 나타났습니다. 또한 응답 시간이 단축되고 24시간 대응이 가능해짐에 따라 임직원의 만족도가 크게 향상되었으며 담당자의 스트레스가 줄어 들어 업무 집중도도 개선되었습니다. 이러한 성과를 바탕으로, 2025년에는 HAQM Bedrock 기반 생성형 AI 애플리케이션을 복지 규정과 사내 규정 등 다양한 영역으로 확장할 계획입니다. 무엇보다 HR담당자분들이 연말정산, 세금신고처럼 반복적으로 수행해야 하는 업무의 범위를 줄이고, 기업의 가치를 높일 수 있는 업무에 집중하도록 돕는 것이 메타페이의 목표입니다.