亚马逊AWS官方博客

推出 HAQM Nova Sonic:为生成式 AI 应用程序带来类似人类的语音对话体验

语音界面对于在客户支持呼叫自动化、游戏、互动式教育和语言学习等不同领域提升客户体验至关重要。然而,在构建支持语音功能的应用程序时会面临诸多挑战。

支持语音的应用程序的传统构建方法需要对多个模型进行复杂的编排,例如使用语音识别模型将语音转换为文本,借助语言模型理解并生成回复,再通过文本转语音模型将文本转换回音频。

这种碎片化的方法不仅增加了开发的复杂性,还无法保留语气、韵律和说话风格等关键的语言上下文信息,而这些对于自然对话来说至关重要。这可能会影响对话式 AI 应用程序的性能,因为这类应用程序需要低延迟,并且要对语言和非语言线索有细致入微的理解,以便流畅地处理对话并自然地进行话轮转换。

为了简化支持语音功能的应用程序的实施过程,我们现在推出 HAQM Nova Sonic,这是 HAQM Nova 基础模型(FM)系列的最新成员,可在 HAQM Bedrock 中使用。

HAQM Nova Sonic 将语音理解和生成功能整合到单一模型中(开发人员可以利用该模型来创建自然、类似人类的对话式 AI 体验),同时具备低延迟和行业领先的性价比。这种集成方法简化了开发过程,并降低了构建对话应用程序时的复杂性。

其统一的模型架构无需单独的模型,即可实现富有表现力的语音生成和实时文本转录。最终生成自适应语音回复,它能够根据输入语音的韵律(如语速和音色)动态调整输出方式。

使用 HAQM Nova Sonic 时,开发人员可以使用函数调用(也称为工具使用)和代理式工作流,与外部服务和 API 进行交互,并在客户环境中执行任务,包括利用检索增强生成,基于企业数据构建知识基础。

在发布时,HAQM Nova Sonic 针对各种说话风格和声学条件提供对美式英语和英式英语的强大语音理解能力,不久后还将支持更多语言。

HAQM Nova Sonic 在开发时将负责任的人工智能置于创新的前沿,具备内置的内容审核和水印保护功能。

HAQM Nova Sonic 的实际应用

本次演示的场景设定为电信行业的一个联络中心。一位客户联系座席,希望改进其订阅计划,由 HAQM Nova Sonic 来处理这次对话。

通过工具使用,该模型可以与其他系统交互,并使用代理式 RAG 和 HAQM Bedrock 知识库收集最新的、针对客户的特定信息,如账户详情、订阅计划和定价信息。

该演示展示了语音输入的流式传输转录,并将流式传输语音回复以文本形式显示。对话的情绪通过两种方式展示:一种是时间图表,说明情绪的变化过程;另一种是饼图,展示总体情绪分布。此外,还有一个人工智能见解部分,为呼叫中心座席提供背景提示。Web 界面中显示的其他有趣指标包括客户和座席之间的总体通话时间分布,以及平均回复时间。

查看视频

在与客服座席的对话过程中,您可以通过这些指标观察到,并且从语音中听到客户的情绪是如何改善的。视频中还展示了一个例子,说明 HAQM Nova Sonic 如何流畅地处理打断情况,它会停下来倾听,然后以自然的方式继续对话。

现在,让我们来探索如何在您的应用程序中集成语音功能。

使用 HAQM Nova Sonic

要开始使用 HAQM Nova Sonic,首先需要在 HAQM Bedrock 控制台中切换模型访问权限,这与启用其他基础模型的方式类似。导航到导航窗格中的模型访问部分,在 HAQM 下找到 HAQM Nova Sonic,并为您的账户启用它。

HAQM Bedrock 提供一个新的双向流式传输 API(InvokeModelWithBidirectionalStream),帮助您在 HTTP/2 协议的基础上实现实时、低延迟的对话体验。使用该 API,您可以将音频输入流式传输到模型,并实时接收音频输出,从而使对话自然流畅。

您可以使用以下模型 ID,通过新 API 来使用 HAQM Nova Sonic:amazon.nova-sonic-v1:0

在会话初始化期间,您可以配置推理参数,之后该模型会通过事件驱动型架构来处理输入和输出流。

输入流中有三种关键事件类型:

系统提示 — 用于设置对话的整体系统提示

音频输入流式传输 — 用于实时处理连续的音频输入

工具结果处理 — 用于将工具使用调用的结果发送回模型(在输出事件中请求工具使用后)

同样,输出流中有三组事件:

自动语音识别(ASR)流式传输 — 生成语音到文本的转录内容,包含实时语音识别的结果。

工具使用处理 — 如果存在工具使用事件,需要使用此处提供的信息进行处理,并将结果作为输入事件发送回去。

音频输出流式传输 — 要实时播放输出音频,需要一个缓冲区,因为 HAQM Nova Sonic 模型生成音频的速度比实时播放速度要快。

您可以在 HAQM Nova 模型食谱存储库中找到使用 HAQM Nova Sonic 的示例。

语音提示工程

为 HAQM Nova Sonic 设计提示时,您的提示应针对听觉理解,而不是视觉阅读进行内容优化,重点关注对话听起来(而不是看起来)的流畅性和清晰度。

在为您的助手定义角色时,应关注对话属性(如热情、耐心、简洁),而不是面向文本的属性(详细、全面、系统)。一个好的基础系统提示可以是:

您是用户的一位朋友。用户将与您进行口语对话,交流自然实时对话的文本记录。回答尽量简短,在闲聊场景中,一般两到三句话即可。

一般来说,在为语音模型创建提示时,应避免要求视觉格式(如项目符号、表格或代码块)、语音特征修改(口音、年龄或唱歌)或音效。

注意事项

HAQM Nova Sonic 现已在 AWS 区域美国东部(弗吉尼亚州北部)推出。访问 HAQM Bedrock 定价,以了解定价模式。

HAQM Nova Sonic 能够理解不同说话风格的语音,并以富有表现力的声音生成语音,包括男性和女性的声音,涵盖美式和英式等不同英语口音。即将为更多语言提供支持。

HAQM Nova Sonic 能够优雅地处理用户的打断,而不会丢失对话上下文,并且能够抵御背景噪音。该模型支持 32K 令牌的音频上下文窗口,并带有可处理更长对话的滚动窗口,默认会话限制为 8 分钟。

以下 AWS SDK 支持新的双向流式传输 API:

Python 开发人员可以使用这个新的实验性 SDK,这样可以更轻松地使用 HAQM Nova Sonic 的双向流式传输功能。我们正在努力为其他 AWS 软件开发工具包添加支持。

我要感谢 Reilly MantonChad Hendren,他们精心准备了电信行业呼叫中心的演示内容;还要感谢 Anuj Jauhari,他帮助我了解了语音到语音模型部署的丰富应用场景。

要了解更多信息,请阅读以下文章,它们详细介绍了如何使用新的双向流式传输 API,并配有引人入胜的演示:

无论您是在创建客户服务解决方案、语言学习应用程序,还是其他对话体验,HAQM Nova Sonic 都可以为自然、引人入胜的语音交互奠定基础。立即访问 HAQM Bedrock 控制台开始使用。要了解更多信息,请访问用户指南的 HAQM Nova 部分

Danilo


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。