HAQM Bedrock Prompt Optimization 助力阅文集团革新大语言模型应用

关于阅文集团

阅文集团是全球领先的互联网文学和 IP 运营公司，通过其海外平台起点国际（WebNovel）积极推动中国网络文学的全球化传播，已在全球 200 多个国家和地区累计吸引了约 2.6 亿用户。同时，阅文集团还将优质网文 IP 改编成影视、动漫等作品推向海外市场，进一步扩大了中国文化的国际影响力。

近期，HAQM Bedrock Prompt Optimization 功能正式上线。借助这一功能，您只需一次 API 调用，或在 HAQM Bedrock 控制台上单击一个按钮，即可针对多种使用场景优化您的提示词。在这篇博客中，我们将探讨提示词优化如何提升阅文集团在智能文本处理任务中大语言模型（LLMs）的性能表现。

传统 NLP 到 LLM – 小说文本智能处理应用的演进

阅文集团在海外（美国和欧洲）的业务中，需要利用 AI 对网文小说进行智能化超长文本分析。阅文集团最初使用自研的传统 NLP 模型来实现网文的拆解和分析，这种方法需要为每项任务单独训练模型，导致开发周期长、更新迭代慢。此外，传统 NLP 模型在泛化能力、上下文理解、模型维护成本等方面相较于 LLM 存在明显劣势，促使阅文集团决定转向使用 HAQM Bedrock 上提供的 LLM（Claude 3.5 Sonnet）来处理这些任务。

Claude 3.5 Sonnet 凭借其强大的自然语言理解和生成能力，不仅可以同时处理多种任务，还能更好地理解上下文，提高模型的泛化能力。更重要的是，通过使用 HAQM Bedrock 提供的服务，阅文集团只需调用 API 接口，无需关心模型的开发和维护，极大地降低了技术成本，提高了开发效率。

然而，在初期使用 LLM 的过程中，阅文集团发现由于缺乏丰富的提示词工程（Prompt Engineering，PE）经验，难以充分发挥 LLM 的潜力。在某些业务场景中，LLM 的表现甚至不如传统的 NLP 模型。例如，在“角色分析“的任务中，传统 NLP 模型可以达到约 80% 的准确率，而未经过精心设计提示词的 LLM 的准确率仅为 70% 左右。

提示词优化的挑战

当前，手动进行提示词优化面临以下挑战：

评估难度：评估提示词质量及其在引导语言模型产生预期回应方面的一致性本质上十分复杂。提示词的有效性不仅取决于提示词本身的质量，还取决于它与特定语言模型的交互方式，这又与模型的架构和训练数据相关。理解和应对这种相互作用需要大量领域专业知识。此外，对于开放性任务，评估大语言模型回应质量往往涉及主观和定性判断，这使得建立客观和量化的优化标准变得困难。
上下文依赖性：提示词的有效性高度依赖于特定场景和用例。在一个场景中表现良好的提示词可能在另一个场景中表现不佳，这就需要针对不同应用进行广泛的定制和微调。因此，开发一种能够在多样化任务中良好泛化的通用提示词优化方法仍是一个重大挑战。
可扩展性：随着 LLM 在越来越多用例中被应用，其所需提示词的数量不断增加，模型的复杂性不断提高。这使得手动优化变得越来越耗时且劳动密集。为大规模应用创建和迭代提示词很快就会变得不切实际且效率低下。同时，随着潜在提示词变体数量的增加，最佳提示词的搜索空间呈指数级增长，即使对于中等复杂度的提示词，手动探索所有组合也变得不可行。

鉴于这些挑战，自动提示词优化技术在 AI/ML 社区引起了广泛关注。其中值得一提的是 HAQM Bedrock Prompt Optimization，它提供两大主要优势：

效率高：通过自动生成适用于 HAQM Bedrock 支持的各种目标 LLM 的高质量提示词，节省了大量时间和精力，减轻了在特定模型提示词工程中繁琐的手动试错需求。
性能强：通过创建优化的提示词，显著提高了语言模型在广泛任务和工具中的输出质量，从而增强 LLM 的性能。

这些优势不仅简化了开发过程，还带来了更高效、更有效的 LLM 应用，使自动提示词成为该领域的一项有前景的进步。

HAQM Bedrock Prompt Optimization 介绍

HAQM Bedrock 上的 Prompt Optimization 是一项 AI 驱动功能，旨在自动优化客户特定用例的初始提示词，提升不同目标 LLM 和任务的性能表现。Prompt Optimization 可以无缝集成到 HAQM Bedrock Playground 和 Prompt Management 中，便于在 AI 应用中创建、评估、存储和使用优化后的提示词。

在 AWS Management Console 的 Prompt Management 界面，用户输入原始提示词。提示词可以是带有变量占位符的模板（如{{document}}），也可以是已填入实际文本的完整提示词。用户从支持列表中选择目标模型后，只需一键即可启动优化过程，优化后的提示词将在几秒内生成。控制台随后会显示”Compare Variants”标签页，并排展示原始和优化后的提示词以便快速比较。优化后的提示词通常包含更明确的指令，用于处理输入变量并生成期望的输出格式。用户可以观察 Prompt Optimization 所做的改进，以提高提示词在特定任务中的表现。

我们在开源数据集上进行了全面评估，涵盖分类、摘要、开放式问答/RAG、Agent/Function Call 等任务，以及复杂的真实客户用例，结果显示优化后的提示词带来了显著改进。

在优化过程的背后，结合了 Prompt Analyzer 和 Prompt Rewriter 来优化原始提示词。Prompt Analyzer 是一个经过微调的 LLM，通过提取关键组成元素（如任务指令、输入上下文和少样本示例）来分解提示词结构。提取的提示词组件随后被传送到 Prompt Rewriter 模块，该模块采用基于通用 LLM 的元提示策略，进一步改进提示词特征并重构提示词布局。最终，Prompt Rewriter 生成一个针对目标 LLM 量身定制的精炼和增强版提示词。

HAQM Bedrock Prompt Optimization 优化的结果

通过使用 HAQM Bedrock Prompt Optimization，阅文集团在智能文本分析的任务的结果上有了极大的提升，比如在“部分角色分析”的任务中，优化后的提示词可以达到 90% 的准确率，超过了传统 NLP 模型。

并且，HAQM Bedrock Prompt Optimization 作为自动化的 prompt 优化工具，无需人工干预或丰富的 PE 经验，就能产生高质量的优化结果。这一特性使阅文集团能够极短时间内完成原本可能需要数天、甚至数周的 PE 优化过程，极大地提高了开发效率。

HAQM Bedrock Prompt Optimization 最佳实践

通过使用 HAQM Bedrock Prompt Optimization，我们总结了几点提升用户体验的建议：

使用清晰精确的输入提示词：Prompt Optimization 会从您输入提示词中明确的意图和关键期望中受益。同时，清晰的提示词结构能为 Prompt Optimization 提供更好的起点。例如，用换行符分隔不同的提示词部分。
使用英语作为输入语言：我们建议使用英语作为 Prompt Optimization 的输入语言。目前，包含大量其他语言的提示词可能无法获得最佳结果。
避免过长的原始提示词和示例：过长的提示词和示例会显著增加语义理解的难度，并挑战重写器的输出长度限制。另一个技巧是避免在同一句子中使用过多占位符，并从提示词主体中移除关于占位符的实际上下文。例如：不要使用“Answer the {{question}} by reading {{author}}'s {{paragraph}}”，而应该组织为：“Paragraph:\n{{paragraph}}\nAuthor:\n{{author}}\nAnswer the following question:\n{{question}}”这样的形式。
在提示词工程的早期阶段使用：Prompt Optimization 擅长在提示词工程的早期阶段快速优化结构较少的提示词（即”lazy prompts”）。与专家或提示词工程师已经精心设计的提示词相比，这类提示词的改进可能更为显著。

总结

HAQM Bedrock Prompt Optimization 已被证明是阅文集团智能文本处理的革命性工具。通过显著提高角色对话归因等任务的准确性，简化提示词工程流程，Prompt Optimization 使阅文集团充分发挥了 LLM 的力量。这个案例研究展示了 Prompt Optimization 在各行业革新 LLM 应用的潜力。随着 GenAI 的不断发展，像 Prompt Optimization 这样的工具将帮助企业最大化 LLM 在其运营中的作用，并发挥关键效果。

我们鼓励您探索 HAQM Bedrock Prompt Optimization 来提升您的 AI 应用性能。要开始使用 Prompt Optimization，请参阅以下资源：

*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

亚马逊AWS官方博客