亚马逊AWS官方博客

HAQM Bedrock 现已提供 Pixtral Large 25.02 模型

现在,我们宣布,Pixtral Large 25.02 模型现已作为完全托管式无服务器产品在 HAQM Bedrock 推出。AWS 是第一家以完全托管式无服务器模型提供 Pixtral Large 的云提供商。

使用大型基础模型(FM)通常需要大量的基础设施规划、特殊的专业知识和持续的优化,才能有效地处理计算需求。许多客户发现,在部署这些复杂的模型时,他们需要管理复杂的环境,或者在性能和成本之间进行权衡。

Mistral AI 开发的 Pixtral Large 模型代表了他们的第一个多模态模型,该模型结合了先进的视觉能力与强大的语言理解能力。128K 的上下文窗口使其成为复杂的视觉推理任务的理想选择。该模型在包括 MathVistaDocVQAVQAv2 在内的关键基准测试中表现出卓越的性能,证明其在文档分析、图表解释和自然图像理解方面的有效性。

Pixtral Large 最强大的一个方面是其多语言功能。该模型支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语,使其可供全球团队和应用程序使用。它还接受过 80 多种编程语言的训练,包括 Python、Java、C、C++、JavaScript、Bash、Swift 和 Fortran,可提供强大的代码生成和解释功能。

开发人员会喜欢该模型以代理为中心的设计,它具有内置的函数调用和 JSON 输出格式,这简化了与现有系统的集成。其强大的系统提示依从性提高了处理检索增强生成(RAG)应用程序和大型环境场景时的可靠性。

有了 HAQM Bedrock 中的 Pixtral Large,您现在无需预置或管理任何基础设施即可访问此高级模型。无服务器方法使您可以根据实际需求扩展使用量,而无需进行预先承诺或进行容量规划。您只需按实际使用量付费,没有空闲资源。

跨区域推理

通过跨区域推理,Pixtral Large 现已在多个 AWS 区域 的 HAQM Bedrock 中推出。

通过 HAQM Bedrock 跨区域推理,您可以在多个地理区域访问单个 FM,同时保持全球应用程序的高可用性和低延迟。例如,当同时将某个模型部署在欧洲和美国区域时,您可以使用不同的前缀,通过特定于区域的 API 端点访问该模型:欧洲区域为 eu.model-id,美国区域为 us.model-id。这种方法使 HAQM Bedrock 能够将推理请求路由到地理位置最近的端点,从而减少延迟,同时通过将数据处理保持在所需的地理边界内来帮助满足监管合规性。系统会自动处理这些区域部署之间的流量路由和负载平衡,从而提供无缝的可扩展性和冗余,而无需您跟踪实际部署模型的各个区域。

实际操作

作为开发人员宣传官,我一直在探索我们的最新功能如何解决实际问题。最近,我女儿请求帮助准备物理考试,我获得了一个机会在 HAQM Bedrock Converse API 中测试新的多模态功能。

上周末,我的厨房桌子上摆满了练习题,里面都是复杂的图表、力矢量和方程式。我女儿在努力思考如何解决这些问题。那时,我意识到这是我们刚刚推出的多模态功能的完美应用场景。我拍了一张特别具有挑战性的问题表的照片,其中包含几个图形和数学符号,然后我使用 Converse API 创建了一个可以分析图像的简单应用程序。我们一起上传了物理考试材料,并请模型解释解题方法。

法语物理问题

接下来发生的事情让我们印象深刻——模型解释了图表,识别了法语和数学符号,并逐步解释了如何解决每个问题。当我们就具体概念提出后续问题时,该模型在我们的整个对话中保持着上下文,创造出一种感觉非常自然的辅导体验。

# Effet Doppler avec une Source Sonore en Rotation

## Analyse du problème

Ce problème concerne l'effet Doppler produit par une source sonore en rotation.Une source émettant un son à 1500 Hz tourne sur une table tournante dans le sens antihoraire, et nous devons déterminer comment les fréquences sont perçues par un microphone fixe.

## Concepts clés

L'effet Doppler se produit lorsqu'il y a un mouvement relatif entre une source sonore et un observateur.La fréquence perçue dépend de si la source se rapproche ou s'éloigne de l'observateur.

La formule de l'effet Doppler est:
- Pour une source qui se rapproche: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} - v_{source}}$
- Pour une source qui s'éloigne: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} + v_{source}}$

## Solution étape par étape

### Étape 1: Analyser le mouvement de la source
La source tourne sur un cercle et le microphone est fixe à 40 cm du centre de rotation.Aux différentes positions (a, b, c), la source a des vitesses radiales différentes par rapport au microphone:

- Position a: La source se déplace perpendiculairement à la ligne source-microphone (vitesse radiale nulle)
- Position b: La source s'éloigne du microphone (vitesse radiale positive)
- Position c: La source se rapproche du microphone (vitesse radiale négative)

### Étape 2: Déterminer l'effet sur les fréquences perçues

- À la position a: Pas d'effet Doppler car la vitesse radiale est nulle, donc $f_a = f_{source} = 1500$ Hz
- À la position b: La source s'éloigne, donc $f_b < f_{source}$, donc $f_b < 1500$ Hz
- À la position c: La source se rapproche, donc $f_c > f_{source}$, donc $f_c > 1500$ Hz

### Étape 3: Comparer les fréquences

D'après notre analyse:
- $f_a = 1500$ Hz
- $f_b < 1500$ Hz
- $f_c > 1500$ Hz

Donc: $f_c > f_a > f_b$

## Conclusion

La proposition correcte est: $f_c > f_a > f_b$

Cette réponse correspond à la troisième proposition dans l'énoncé.Lorsque la source tourne, la fréquence perçue est plus élevée quand la source se rapproche (position c), égale à la fréquence émise quand la source se déplace perpendiculairement (position a), et plus basse quand la source s'éloigne (position b).

该模型使用问题的语言来作出回答。经过深思熟虑的分析,它显示正确的答案是 f_c > f_a > f_b(而且是对的!)

这种交互的美妙之处在于,Converse API 无缝处理多模态输入的方式。作为一名构建者,我不必担心同时处理图像和文本的复杂性,API 会管理这种复杂性,并返回结构化回答,而我的简单应用程序可以直接向我的女儿呈现这些回答

下面是我写的代码。我使用 Swift 编程语言,只是为了表明 Python 不是您的唯一选择 😇。

private let modelId = "us.mistral.pixtral-large-2502-v1:0"

// Define the system prompt that instructs Claude how to respond
let systemPrompt = """
You are a math and physics tutor.Your task is to:
1.Read and understand the math or physics problem in the image
2.Provide a clear, step-by-step solution to the problem
3.Briefly explain any relevant concepts used in solving the problem
4.Be precise and accurate in your calculations
5.Use mathematical notation when appropriate

Format your response with clear section headings and numbered steps.
"""
let system: BedrockRuntimeClientTypes.SystemContentBlock = .text(systemPrompt)

// Create the user message with text prompt and image
let userPrompt = "Please solve this math or physics problem.Show all steps and explain the concepts involved."
let prompt: BedrockRuntimeClientTypes.ContentBlock = .text(userPrompt)
let image: BedrockRuntimeClientTypes.ContentBlock = .image(.init(format: .jpeg, source: .bytes(finalImageData)))

// Create the user message with both text and image content
let userMessage = BedrockRuntimeClientTypes.Message(
    content: [prompt, image],
    role: .user
)

// Initialize the messages array with the user message
var messages: [BedrockRuntimeClientTypes.Message] = []
messages.append(userMessage)

// Configure the inference parameters
let inferenceConfig: BedrockRuntimeClientTypes.InferenceConfiguration = .init(maxTokens: 4096, temperature: 0.0)

// Create the input for the Converse API with streaming
let input = ConverseStreamInput(inferenceConfig: inferenceConfig, messages: messages, modelId: modelId, system: [system])

// Make the streaming request
do {
    // Process the stream
    let response = try await bedrockClient.converseStream(input: input)

    // Iterate through the stream events
    for try await event in stream {
        switch event {
        case .messagestart:
            print("AI-assistant started to stream")

        case let .contentblockdelta(deltaEvent):
            // Handle text content as it arrives
            if case let .text(text) = deltaEvent.delta {
                DispatchQueue.main.async {
                    self.streamedResponse += text
                }
            }

        case .messagestop:
            print("Stream ended")
            // Create a complete assistant message from the streamed response
            let assistantMessage = BedrockRuntimeClientTypes.Message(
                content: [.text(self.streamedResponse)],
                role: .assistant
            )
            messages.append(assistantMessage)

        default:
            break
        }
    }

应用程序的结果令人惊叹。

iOS 物理问题解析器

当她的考试再次到来时,她感到自信并做好了充分的准备——这是一个令人信服的现实世界的例子,说明我们在 HAQM Bedrock 中的多模态功能如何为用户创造有意义的体验。

立即开始使用

新模型可通过以下区域 API 端点获得:美国东部(俄亥俄州、弗吉尼亚北部)、美国西部(俄勒冈州)和欧洲(法兰克福、爱尔兰、巴黎、斯德哥尔摩)。这种区域可用性可帮助您满足数据驻留要求,同时最大限度地减少延迟。

您可以通过 AWS 管理控制台开始使用该模型,也可以使用模型 ID mistral.pixtral-large-2502-v1:0 通过 AWS 命令行界面(AWS CLI)AWS SDK 以编程方式使用该模型。

此次发布代表着向为各种规模的开发人员和组织提供先进的多模态人工智能迈出了重要一步。通过结合 Mistral AI 的前沿模型与 AWS 无服务器基础设施,您现在可以专注于构建创新应用程序,而无需担心潜在的复杂性。

立即访问 HAQM Bedrock 控制台,开始试验 Pixtral Large 25.02,并了解它如何增强您的人工智能驱动型应用程序。

— seb


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。