企业级 AI 平台建设思路

背景

1. 为什么需要建设企业级 AI 平台

随着 AI 技术从单点实验转向全场景落地，以及近几年越来越多的机器学习模型和生成式 AI 的快速发展。几乎各个企业都在企业内部试点基于 AI 的各种场景，试图将 AI 能力用于提升内部效能、提供外部用户体验、节省成本等。

同时我们也发现企业内部各个部门都在进行基于 AI 的应用开发，这种传统分散式开发模式暴露出数据孤岛、算法复用率低、资源浪费等问题。同时，激烈的市场竞争要求企业快速沉淀 AI 能力，实现跨部门协同创新。如下图，每个部门都建立了 RAG、AI agent、prompt、模型编排、账单、监控等等基础能力，并应用于多个不同场景。

这样造成了极大的浪费，同时没法支撑快速的 POC 等创新实验以及生产化应用。所以 AI 平台通过构建统一的资源管理、模型工厂和服务调度体系，实现 AI 基础资产复用，降低技术门槛，加速智能应用孵化。它作为企业 AI 能力的操作系统，助力组织实现可持续的智能化升级，提升运营效率和决策水平，最终增强竞争优势。所以总结企业级 AI 平台的意义如下：

资源整合与效率提升

通过集中管理技术、数据和人才资源，平台可以避免各部门重复造轮子，提高研发效率和资源利用率。

快速响应业务需求，促进技术创新与协同效应

为各业务部门提供统一的 AI 能力，使产品和服务能够快速迭代与上线，满足市场变化的需求。同时，AI 平台为企业提供技术基础，整合最新研究成果，加速新技术落地，推动企业数字化转型和创新

降低研发和运维成本

统一的 AI 平台有助于标准化开发流程和模型治理，降低维护成本和技术风险，提升系统稳定性和安全性。

数据治理与模型管理

AI 平台实现数据的集中管理和标准化处理，确保数据质量和安全性，对 AI 模型进行统一管理和监控。

2. 如何建立企业级 AI 平台

企业级 AI 平台的范围

从下图可以看到对于目前最火的生成式 AI 属于深度学习领域，而深度学习属于机器学习领域。鉴于机器学习无论是在图像识别、语音处理还是自然语言理解等应用场景，机器学习都表现出优异的效果。且通过不断的训练和反馈，机器学习模型可以持续改进性能，更好地适应复杂多变的实际环境。

对于生成式 AI 领域，我们也可以看到目前仍然有很多场景并不太适用于生成式 AI。下图中，标记为红色的行，很多情况下需要或者结合使用传统的 AI 技术，才能有比较好的效果。

所以对于本文所描述的 AI 平台的范围，我们将其限定到机器学习的范围。

如何构建企业级 AI 平台

首先定义企业级 AI 平台的四个设计原则：

模块化和分层设计
这种设计方法将系统分解为独立的模块，并按功能层次组织。这样可以提高系统的灵活性、可维护性和可扩展性，使得各个组件可以独立开发、测试和更新。
支持各种大型语言模型和机器学习模型
AI 平台应该能够集成和管理不同类型的AI模型，包括各种大型语言模型（LLMs）和其他机器学习模型。这种多样性使得平台可以适应不同的应用场景和需求。
用户友好的能力编排
这意味着平台应提供直观、易用的界面或工具，让用户（可能是开发者或业务人员）能够轻松地组合和配置各种AI能力，以创建复杂的应用或工作流程。
统一管理计费、权限、模型等
AI 平台应该提供一个集中的管理界面，用于处理各种运营和管理任务。这包括用户权限控制、资源使用计费、模型版本管理等。统一管理可以简化操作，提高效率，并确保更好的安全性和一致性。

针对这四个原则，几个关键步骤如下。

识别关键工作流程
聚焦于业务流程的优化。通过识别核心流程、评估效率、发现瓶颈并建立监控指标，企业可以为 AI 的引入做好准备。这不仅提高了整体运营效率，还为 AI 应用创造了更多机会，为数字化转型奠定基础。
评估需要的 AI 能力
强调了解自身 AI 能力的重要性。通过盘点现有资源、明确能力差距并制定发展路线图，企业可以更好地规划 AI 发展方向。这种系统性的评估和规划确保了 AI 投资能够带来实际回报，推动企业向智能化转型。
构建灵活可扩展的技术架构
这一步着重于技术架构设计，着重于建立适应性强的技术基础设施。通过创建灵活的技术结构、确保系统兼容性并考虑安全和未来发展，并且可以为 AI 的成功落地提供保障。架构设计既满足当前需求，又能适应未来的技术变革。
培养人才并整合团队力量
人才在 AI 转型中发挥着核心作用。通过发展 AI 技能、培养跨领域人才、识别应用场景并建立标准，企业可以更好地应对 AI 带来的挑战和机遇。人才培养和团队整合是确保 AI 转型成功的关键因素。

本文针对上面的四个步骤中的前三点进行分析和设计：

业务流程和能力分析

1. 识别关键工作流程

这里以零售行业的典型业务流程举例：

2. 评估需要的 AI 能力

其中的每个流程可能需要不同的 AI 能力，这举一些例子：

业务流程	可能的 AI 能力列表
产品设计和开发
市场研究	客户之声（VOC）、报告分析（GenBI）、趋势预测
产品设计	产品设计生成、辅助产品构思与原型设计、产品搜索与标签
样品生产和测试	缺陷检测、生产参数优化、测试报告分析
产品定型	文档生成、产品标签、服装搭配协调
供应链管理
供应商管理	供应商合同生成、自动合同审查、供应商评估
生产计划	生产需求预测、生产计划调整、市场趋势分析
仓库管理	仓库优化、补货策略
物流和配送	供应链网络优化
销售和营销
市场推广	社交媒体趋势分析、AI 优化广告投放、个性化营销文案
订购	视觉搜索、个性化产品推荐、虚拟试穿与试戴
渠道管理	全渠道库存分配优化、店内资源管理（防盗等）
客户服务	聊天机器人客户支持、客户之声、个性化客户互动
零售管理
店铺运营	虚拟试穿与试戴、店铺布局规划、无人超市
销售数据分析	趋势分析、客户生命周期预测、客户行为分析
促销活动	个性化产品推荐、动态定价策略、社交媒体分析
组织和支持
后台办公	人力资源问答、薪资问答、办公自动化
数据管理	数据质量/完整性、报告分析（GenBI）、趋势分析
员工支持	代码生成、员工培训

这一步的关键，就是要针对业务流程中的核心业务能力，进行评估，企业是否需要某些能力，这些能力可以给企业带来哪些效益，以及从长远看这些能力未来可能在哪些方面起作用。

架构设计

1. 目标架构

下图展示了 AI 能力的建设生命周期流程。机器学习领域，绝大部分的AI能力都来自于数据，数据本身通过数据清洗、验证、处理等流程，进入到 feature store。然后通过模型训练或者微调，再通过模型验证和评估后，把模型存储到模型仓库。最后模型和提示词、RAG、Agent 等上层工具，形成 AI 能力。

将上图流程形成层级结构和 building block 后如下：

基础设施层：
为 AI 系统提供强大的硬件和网络支持。它包括传统 CPU、GPU 和专用 AI 芯片（如 Trainium 和 Inferentia）的计算资源，以及 UltraClusters 超级集群。网络方面采用高速连接和 EFA 技术，确保数据传输高效。存储系统针对 AI 工作负载优化，支持大规模数据处理。此外，还集成了如 SageMaker 和 Neuron 等 AI/ML 平台和工具，简化开发流程。这些先进组件共同构建了一个强大、灵活的基础设施，为上层 AI 应用提供必要的计算能力和资源支持。
数据摄入层：
负责数据的收集、处理和存储。通过 ETL 工具、流式和批处理接口处理各类数据，并提供数据存储解决方案，为 AI 模型提供必要的数据支持。
管理/治理层：
管理 AI 系统的各个方面，包括法律合规、开发流程、模型评估和优化。提供特征存储、训练和微调工具，确保 AI 系统的可靠性、合规性和持续改进。
模型运营层：
管理 AI 模型的全生命周期。包括模型的存储、部署和监控，支持自有模型和第三方模型，确保模型的高效运行和性能监控。
开发工具层：
为 AI 开发者提供必要的工具和环境。包括实验平台、提示词管理、检索增强生成技术、AI 代理和工作流编排，加速 AI 应用的开发和部署。这里需要特别说明的是工作流编排，这个工具不管是在 GenAI 或者传统机器学习模型上都发挥着重要的作用，核心的原因是行业所面临的问题大部分都没发靠单个模型来解决，需要组合多个模型形成解决方案。
AI 能力层：
展示 AI 系统的核心功能和能力。包括文本处理、对话系统、计算机视觉、自然语言处理等多种AI能力，为应用层提供多样化的 AI 服务。
应用层：
展示基于 AI 能力构建的最终应用。包括电子商务、客户智能、营销自动化和产品推荐等实际应用，直接服务于最终用户和业务需求。

这七层结构从底层基础设施到顶层应用，构成了一个完整的 AI 平台能力体系，每一层都为上层提供支持，最终实现复杂的 AI 应用和服务。

那么针对上面的 AI 架构，下面提供一种可选的产品能力满足各个 building block 的需求：

特别说明，这里产品组合均为参考，其中 Model hub 是开源产品， OminiML 是 AWS 的 Proserv 团队的产品。

如果使用 AWS global 的环境，模型层可以接入 Bedrock，作为统一的 API 方式的模型接入各种官方提供的模型。HAQM Bedrock 提供 API 方式的模型接入和 token 的计费方式，模型训练和微调，Agent、多 Agent 协作、知识库、RAG、chat history，提示词等功能，应用可以直接利用这些功能接入 Bedrock 省去底层建设和开发的成本。

2. 架构实施路线

那么如何实施上面的架构能力呢？我们建议从现状出发。考虑到每个企业都有不同的现状，这里假设通过分析后，企业现状如下：

这个图里面，有许多的能力可能目前完全没有，比如 Model monitor、CI/CD pipelines 这些。还有些能力企业已经在使用了，但是没有标准化，也就是各个部门都在定义自己的标准和自己的组件。每个企业可以通过这样的一个图，通过分析后得到的一个现状架构。

基于上面的现状架构的分析结论，下面是一个示例，针对中间三层，如何从 AS-IS 到 TO-BE 的架构设计的实施路线图：

一般情况下，企业不太可能一次性投入大量的人力和物力去研发 AI 平台。所以企业可采用场景或者用例驱动的迭代式方法来构建 AI 平台。这种方法首先确保单个用例能够成功研发并上线，优先利用现有能力。在保证法律合规的基础上，逐步引入管理和编排功能。随着时间推移，平台将融合多个团队的工作和多个案例的经验，逐步发展成为一个全面的 AI 生态系统。这种渐进式方法不仅降低了风险，也使得平台能够根据实际需求和反馈不断优化，最终形成一个强大而灵活的 AI 解决方案。

总结

本文从各个企业当前 AI 能力建设的背景出发，总结了目前遇到的困境以及企业在 AI 建设上的浪费，提出企业级 AI 平台设计的原因和方法论。然后根据方法论，提出核心的建设目标，以及 4 步方法步骤。再通过一个示例，分析零售行业的核心业务流程以及 AI 相关能力，提供通用的架构设计框架和架构实施路径图。其中构建企业级 AI 平台的最后一步“培养人才并整合团队力量”，属于另一个范畴，不在此文进行赘述。

企业在建设过程中，可以参考本文提到的核心方法论进行平台建设和架构设计。

*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

亚马逊AWS官方博客