HAQM Web Services 한국 블로그

HAQM Nova Sonic 출시, 생성형 AI 애플리케이션을 위한 인간과 유사한 음성 대화 제공

음성 인터페이스는 고객 지원 통화 자동화, 게임, 대화형 교육, 언어 학습 등 다양한 분야에서의 고객 경험 향상에 필수적입니다. 하지만 음성 지원 애플리케이션을 구축할 때는 여러 가지 어려움이 있습니다.

음성 지원 애플리케이션을 구축하는 기존의 접근 방식은 음성을 텍스트로 변환하는 음성 인식, 응답을 이해하고 생성하는 언어 모델, 텍스트를 다시 오디오로 변환하는 텍스트-음성 변환 등의 여러 모델을 복잡하게 오케스트레이션해야 합니다.

이렇게 파편화된 접근 방식은 개발 복잡성을 증가시킬 뿐 아니라 자연스러운 대화에 필수적인 톤, 운율, 말하기 스타일과 같은 중요한 언어적 맥락을 유지하지 못합니다. 이 방식은 원활한 대화 처리와 자연스러운 대화 전환을 위해 언어적 및 비언어적 신호에 대한 섬세한 이해가 필요하고 지연 시간이 짧아야 하는 대화형 AI 애플리케이션에 영향을 미칠 수 있습니다.

음성 지원 애플리케이션의 구현을 간소화하기 위해, 오늘은 HAQM Nova 파운데이션 모델(FM) 제품군에 새로 추가되었고 HAQM Bedrock에서 사용할 수 있는 HAQM Nova Sonic을 소개해 드립니다.

HAQM Nova Sonic은 음성 이해와 생성을 하나의 모델로 통합하여 개발자가 짧은 지연 시간과 업계 최고의 가격 대비 성능으로 자연스럽고 인간과 유사한 대화형 AI 환경을 만드는 데 사용할 수 있습니다. 이 통합 접근 방식은 개발을 간소화하고 대화형 애플리케이션을 구축할 때 복잡성을 줄여줍니다.

통합 모델 아키텍처는 별도의 모델 없이도 표현력이 풍부한 음성 생성과 실시간 텍스트 트랜스크립션을 제공합니다. 그 결과 입력된 음성의 속도와 음색과 같은 운율에 따라 동적으로 전달을 조정하는 적응형 음성 응답이 가능합니다.

HAQM Nova Sonic을 사용할 때 개발자는 함수 호출(도구 사용이라고도 함)과 에이전트 워크플로에 액세스하여 외부 서비스 및 API와 상호 작용하고 고객 환경에서 검색 증강 생성을 사용하여 엔터프라이즈 데이터로 지식 기반을 마련하는 등의 작업을 수행할 수 있습니다.

출시 당시 HAQM Nova Sonic은 다양한 말하기 스타일과 음향 조건에서 미국 영어와 영국 영어에 대한 강력한 음성 이해 기능을 제공하며, 추가 언어 지원도 곧 출후 제공 예정입니다.

HAQM Nova Sonic은 혁신의 최전선에서 책임 있는 AI를 바탕으로 개발되었으며, 콘텐츠 조정 및 워터마킹을 위한 보호 기능이 내장되어 있습니다.

HAQM Nova Sonic 작동 방식
이 데모의 시나리오는 통신 업계의 고객 센터입니다. 고객이 자신의 구독 플랜을 개선해 달라고 하면 HAQM Nova Sonic이 대화를 처리합니다.

이 모델은 도구를 사용하여 다른 시스템과 상호 작용할 수 있으며 HAQM Bedrock Knowledge Bases와 함께 에이전트 RAG를 사용하여 계정 세부 정보, 구독 플랜, 요금 정보와 같은 업데이트된 고객별 정보를 수집할 수 있습니다.

이 데모는 입력된 음성의 스트리밍 트랜스크립션을 보여주고 스트리밍 음성 응답을 텍스트로 표시합니다. 대화 감정은 고객의 감정이 어떻게 변화하는지 보여주는 시간 차트와 전체 분포를 나타내는 원형 차트의 두 가지 방식으로 표시됩니다. 콜 센터 에이전트를 위한 상황별 팁을 제공하는 AI 인사이트 섹션도 있습니다. 웹 인터페이스에 나타나는 다른 흥미로운 지표로는 고객과 에이전트 간의 전체 대화 시간 분포와 평균 응답 시간이 있습니다.

지원 에이전트와 대화하는 동안 지표로 관찰하고 고객의 감정이 개선되는 과정을 음성으로 들을 수 있습니다.

이 비디오에는 HAQM Nova Sonic이 어떻게 중단을 원활하게 처리하고, 잠시 멈춰서 듣고 나서 자연스럽게 대화를 계속하는지를 보여주는 예시가 나옵니다.

이제 애플리케이션에 음성 기능을 통합하는 방법을 살펴보겠습니다.

HAQM Nova Sonic 사용
HAQM Nova Sonic을 시작하려면 먼저 다른 FM을 활성화하는 방법과 마찬가지로 HAQM Bedrock 콘솔에서 모델 액세스를 전환해야 합니다. 탐색 창의 모델 액세스 섹션으로 이동하여 HAQM 모델 아래에서 HAQM Nova Sonic을 찾아 계정에 대해 활성화합니다.

HAQM Bedrock은 HTTP/2 프로토콜을 기반으로 실시간, 저지연 대화형 환경을 구현할 수 있도록 새로운 양방향 스트리밍 API(InvokeModelWithBidirectionalStream)를 제공합니다. 이 API를 사용하면 모델에 오디오 입력을 스트리밍하고 실시간으로 오디오 출력을 수신하여 대화가 자연스럽게 진행되도록 할 수 있습니다.

모델 ID가 amazon.nova-sonic-v1:0인 새 API로 HAQM Nova Sonic을 사용할 수 있습니다.

추론 파라미터를 구성할 수 있는 세션 초기화 후, 모델은 입력 스트림과 출력 스트림 모두에서 이벤트 기반 아키텍처를 통해 작동합니다.

입력 스트림에는 세 가지 주요 이벤트 유형이 있습니다.

  • 시스템 프롬프트 – 대화에 대한 전반적인 시스템 프롬프트 설정
  • 오디오 입력 스트리밍 – 연속 오디오 입력을 실시간으로 처리
  • 도구 결과 처리 – (출력 이벤트에서 도구 사용을 요청한 후) 도구 사용 호출 결과를 모델로 다시 전송

마찬가지로 출력 스트림에도 세 가지 이벤트 그룹이 있습니다.

  • 자동 음성 인식(ASR) 스트리밍 – 실시간 음성 인식 결과가 포함된 음성-텍스트 변환 트랜스크립트가 생성됩니다.
  • 도구 사용 처리 – 도구 사용 이벤트가 있는 경우 여기에 제공된 정보를 사용하여 이벤트를 처리해야 하며, 그 결과는 입력 이벤트로 다시 전송됩니다.
  • 오디오 출력 스트리밍 – HAQM Nova Sonic 모델은 실시간 재생보다 오디오를 더 빠르게 생성하므로 출력된 오디오를 실시간으로 재생하려면 버퍼가 필요합니다.

HAQM Nova Sonic 사용 예시는 HAQM Nova 모델 쿡북 리포지토리에서 확인할 수 있습니다.

음성용 프롬프트 엔지니어링
HAQM Nova Sonic용 프롬프트를 작성할 때는 눈으로 보기보다 귀로 들을 때의 대화 흐름과 명확성에 초점을 맞추어 시각적 읽기보다 청각적 이해에 맞추어 프롬프트 콘텐츠를 최적화해야 합니다.

어시스턴트의 역할을 정의할 때는 텍스트 중심의 속성(상세, 포괄적, 체계적)보다는 대화 중심의 속성(예: 따뜻함, 인내심, 간결함)에 중점을 둡니다. 아래에 좋은 기준이 되는 시스템 프롬프트를 제시합니다.

당신은 친구입니다. 사용자와 당신은 자연스러운 실시간 대화 대본을 주고받으며 음성 대화를 나눕니다. 대화가 많은 시나리오의 경우 보통 두세 문장 정도로 짧게 응답하세요.

일반적으로 음성 모델에 대한 프롬프트를 작성할 때는 시각적 서식(글머리 기호, 표 또는 코드 블록 등), 음성 특성 변화(억양, 나이, 노래) 또는 음향 효과를 요청하지 마세요.

알아야 할 사항
HAQM Nova Sonic은 오늘부터 미국 동부(버지니아 북부) AWS 리전에서 사용할 수 있습니다. 요금 모델을 보려면 HAQM Bedrock 요금에서 확인하세요.

HAQM Nova Sonic은 다양한 말하기 스타일의 음성을 이해할 수 있으며 미국식 억양, 영국식 억양 등 다양한 영어 억양으로 남성적인 목소리와 여성적인 목소리를 모두 포함한 표현력이 풍부한 목소리로 음성을 생성합니다. 추가 언어 지원도 곧 출시 예정입니다.

HAQM Nova Sonic은 대화 문맥을 끊지 않고 사용자의 중단을 원활하게 처리하며 주변 소음에 강합니다. 이 모델은 긴 대화를 처리하기 위해 롤링 창이 있는 오디오용 32K 토큰의 컨텍스트 창을 지원하며, 기본 세션 길이는 8분으로 제한됩니다.

다음 AWS SDK는 새로운 양방향 스트리밍 API를 지원합니다.

Python 개발자는 이 새로운 실험용 SDK를 사용하여 HAQM Nova Sonic의 양방향 스트리밍 기능 사용을 용이하게 할 수 있습니다. 현재 다른 AWS SDK에도 지원을 추가하기 위해 작업 중입니다.

통신 업계의 고객 센터와 함께 데모를 준비해준 Reilly MantonChad Hendren, 그리고 음성 대화 모델이 배포되는 다양한 환경을 이해하는 데 도움을 준 Anuj Jauhari에게 감사의 말을 전하고 싶습니다.

새로운 양방향 스트리밍 API를 사용하는 방법을 자세히 설명하고 있는 다음 글에서 흥미로운 데모와 함께 자세한 내용을 알아보세요.

고객 서비스 솔루션, 언어 학습 애플리케이션 또는 기타 대화 환경을 만들 때 HAQM Nova Sonic은 자연스럽고 매력적인 음성 상호 작용을 위한 기반을 제공합니다. 지금 바로 HAQM Bedrock 콘솔을 방문하여 시작하세요. 자세한 내용은 HAQM Nova 사용 설명서를 참조하세요.

Danilo


뉴스 블로그를 어떻게 생각하시나요? 이 1분짜리 설문조사에 참여해 주세요!

(이 설문조사는 외부 기업에서 호스트합니다. AWS는 AWS 개인정보 처리방침에 설명한 대로 사용자 정보를 처리합니다. AWS는 이 설문 조사를 통해 수집된 데이터를 소유하며 수집된 정보를 설문 응답자와 공유하지 않습니다)