AWS が HAQM Bedrock サーバーレスにおける Pixtral Large 25.02 モデルを発表

4 月 8 日、Pixtral Large 25.02 モデルが、フルマネージドサーバーレスオファリングとして HAQM Bedrock でご利用いただけるようになったことをお知らせします。AWS は、Pixtral Large をフルマネージドサーバーレスモデルとして提供する最初の大手クラウドプロバイダーです。

大規模基盤モデル (FM) を使用するには、多くの場合、計算の需要を効果的に処理するために、大規模なインフラストラクチャ計画、専門知識、継続的な最適化が必要です。多くのお客様は、これらの高度なモデルをデプロイする際に、複雑な環境を管理したり、パフォーマンスとコストのトレードオフを行ったりする必要があります。

Mistral AI によって開発された Pixtral Large モデルは、高度なビジョン機能と強力な言語理解を組み合わせた、同社初のマルチモーダルモデルです。128K のコンテキストウィンドウを備えているため、複雑な視覚推論タスクに最適です。このモデルは、MathVista、DocVQA、VQAv2 などの主要なベンチマークで優れたパフォーマンスを発揮し、ドキュメント分析、チャート解釈、自然画像理解における有効性を実証しています。

Pixtral Large の最も強力な点の 1 つは、多言語対応です。このモデルは、英語、フランス語、ドイツ語、スペイン語、イタリア語、中国語、日本語、韓国語、ポルトガル語、オランダ語、ポーランド語など、数十の言語をサポートしており、グローバルなチームやアプリケーションでのアクセシビリティを高めています。また、Python、Java、C、C++、JavaScript、Bash、Swift、Fortran など、80 超のプログラミング言語でトレーニングされており、堅牢なコード生成および解釈機能を提供します。

デベロッパーは、組み込みの関数呼び出しと JSON 出力フォーマットを備えたエージェント中心のモデルの設計を高く評価するでしょう。この設計により、既存システムとの統合が簡素化されます。強力なシステムプロンプト準拠により、検索拡張生成 (RAG) アプリケーションや大規模なコンテキストのシナリオで作業する際の信頼性が高まります。

HAQM Bedrock の Pixtral Large により、インフラストラクチャのプロビジョニングや管理なしで、この高度なモデルにアクセスできるようになりました。サーバーレスアプローチにより、事前の確約やキャパシティプランニングなしで、実際の需要に基づいて使用量をスケールできます。お支払いいただくのは使用した分についての料金のみです。アイドル状態のリソースは存在しません。

クロスリージョン推論
Pixtral Large は、複数の AWS リージョンで、クロスリージョン推論を通じて HAQM Bedrock でご利用いただけるようになりました。

HAQM Bedrock のクロスリージョン推論を使用すると、グローバルアプリケーションのために高可用性と低レイテンシーを維持しながら、複数の地理的リージョンにまたがる単一の FM にアクセスできます。例えば、モデルが欧州と米国の両方のリージョンにデプロイされている場合、異なるプレフィックス (欧州リージョンの場合は eu.model-id、米国リージョンの場合は us.model-id) を使用して、リージョン固有の API エンドポイントを通じてアクセスできます。このアプローチにより、HAQM Bedrock は推論リクエストを地理的に最も近いエンドポイントにルーティングできるようになり、レイテンシーが低減されるとともに、データ処理を必要な地理的境界内に維持することで規制コンプライアンスの遵守にも役立ちます。システムはこれらのリージョンレベルのデプロイ全体でトラフィックのルーティングと負荷分散を自動的に処理するため、シームレスなスケーラビリティと冗長性が提供されます。モデルが実際にデプロイされている個々のリージョンを追跡する必要はありません。

実際の動作
Developer Advocate として、私は最新の機能が実際の問題をどのように解決できるのかを常に模索しています。最近、娘が物理の試験対策について助けを求めてきたときに、HAQM Bedrock Converse API の新しいマルチモーダル機能をテストする絶好の機会がありました。

先週末、私のキッチンテーブルは、複雑な図、節点力ベクトル、方程式でいっぱいの模擬試験で埋もれていました。娘はこれらの問題への取り組み方を概念化するのに苦労していました。その時、私はこれが、私たちがリリースしたばかりのマルチモーダル機能の完璧なユースケースであることに気づきました。私は、複数のグラフと数式が含まれた、特に難しい問題用紙の写真を撮り、Converse API を使用して、画像を分析できるシンプルなアプリケーションを作成しました。そして、物理学の試験問題をアップロードし、モデルに解法を説明するよう支持しました。

その後の展開は、私たち 2 人にとって非常に印象深いものでした。モデルは図を解釈し、フランス語と数式を認識して、各問題の解き方をステップバイステップで説明してくれたのです。特定の概念について追加の質問をした際、モデルは会話全体を通じてコンテキストを維持し、驚くほど自然なチューターエクスペリエンスを実現してくれました。

# Effet Doppler avec une Source Sonore en Rotation

## Analyse du problème

Ce problème concerne l'effet Doppler produit par une source sonore en rotation.Une source émettant un son à 1500 Hz tourne sur une table tournante dans le sens antihoraire, et nous devons déterminer comment les fréquences sont perçues par un microphone fixe.

## Concepts clés

L'effet Doppler se produit lorsqu'il y a un mouvement relatif entre une source sonore et un observateur.La fréquence perçue dépend de si la source se rapproche ou s'éloigne de l'observateur.

La formule de l'effet Doppler est:
- Pour une source qui se rapproche: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} - v_{source}}$
- Pour une source qui s'éloigne: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} + v_{source}}$

## Solution étape par étape

### Étape 1: Analyser le mouvement de la source
La source tourne sur un cercle et le microphone est fixe à 40 cm du centre de rotation.Aux différentes positions (a, b, c), la source a des vitesses radiales différentes par rapport au microphone:

- Position a: La source se déplace perpendiculairement à la ligne source-microphone (vitesse radiale nulle)
- Position b: La source s'éloigne du microphone (vitesse radiale positive)
- Position c: La source se rapproche du microphone (vitesse radiale négative)

### Étape 2: Déterminer l'effet sur les fréquences perçues

- À la position a: Pas d'effet Doppler car la vitesse radiale est nulle, donc $f_a = f_{source} = 1500$ Hz
- À la position b: La source s'éloigne, donc $f_b < f_{source}$, donc $f_b < 1500$ Hz
- À la position c: La source se rapproche, donc $f_c > f_{source}$, donc $f_c > 1500$ Hz

### Étape 3: Comparer les fréquences

D'après notre analyse:
- $f_a = 1500$ Hz
- $f_b < 1500$ Hz
- $f_c > 1500$ Hz

Donc: $f_c > f_a > f_b$

## Conclusion

La proposition correcte est: $f_c > f_a > f_b$

Cette réponse correspond à la troisième proposition dans l'énoncé.Lorsque la source tourne, la fréquence perçue est plus élevée quand la source se rapproche (position c), égale à la fréquence émise quand la source se déplace perpendiculairement (position a), et plus basse quand la source s'éloigne (position b).

モデルは問題の言語を用いて応答します。綿密な分析の後、正解は f_c > f_a > f_b であると返答します (そして、それは正解です!)。

このやり取りのすばらしい点は、Converse API がマルチモーダルな入力をどれほどシームレスに処理したかということです。ビルダーとして、テキストと並行して画像を処理する複雑さについて心配する必要はありませんでした。API がその複雑さを管理し、私のシンプルなアプリケーションでも娘に直接提示できる、構造化された応答を返してくれました。

私が記述したコードを以下に示します。ここでは Swift プログラミング言語を使用しました。これは Python が唯一の選択肢ではないことを示すためです 😇。

private let modelId = "us.mistral.pixtral-large-2502-v1:0"

// Claude に応答方法を指示するシステムプロンプトを定義します
let systemPrompt = """
You are a math and physics tutor.Your task is to:
1.Read and understand the math or physics problem in the image
2.Provide a clear, step-by-step solution to the problem
3.Briefly explain any relevant concepts used in solving the problem
4.Be precise and accurate in your calculations
5.Use mathematical notation when appropriate

Format your response with clear section headings and numbered steps.
"""
let system: BedrockRuntimeClientTypes.SystemContentBlock = .text(systemPrompt)

// テキストプロンプトと画像を含むユーザーメッセージを作成します
let userPrompt = "Please solve this math or physics problem.Show all steps and explain the concepts involved."
let prompt: BedrockRuntimeClientTypes.ContentBlock = .text(userPrompt)
let image: BedrockRuntimeClientTypes.ContentBlock = .image(.init(format: .jpeg, source: .bytes(finalImageData)))

// テキストと画像の両方のコンテンツを含むユーザーメッセージを作成します
let userMessage = BedrockRuntimeClientTypes.Message(
    content: [prompt, image],
    role: .user
)

// ユーザーメッセージでメッセージ配列を初期化します
var messages: [BedrockRuntimeClientTypes.Message] = []
messages.append(userMessage)

// 推論パラメータを設定します
let inferenceConfig: BedrockRuntimeClientTypes.InferenceConfiguration = .init(maxTokens: 4096, temperature: 0.0)

// ストリーミングを使用して Converse API の入力を作成します
let input = ConverseStreamInput(inferenceConfig: inferenceConfig, messages: messages, modelId: modelId, system: [system])

// ストリーミングリクエストを実行します
do {
    // ストリームを処理します
    let response = try await bedrockClient.converseStream(input: input)

    // ストリームイベントをイテレーションします
    for try await event in stream {
        switch event {
        case .messagestart:
            print("AI-assistant started to stream")

        case let .contentblockdelta(deltaEvent):
            // テキストコンテンツが到達したら処理します
            if case let .text(text) = deltaEvent.delta {
                DispatchQueue.main.async {
                    self.streamedResponse += text
                }
            }

        case .messagestop:
            print("Stream ended")
            // ストリーミングされた応答から完全なアシスタントメッセージを作成します
            let assistantMessage = BedrockRuntimeClientTypes.Message(
                content: [.text(self.streamedResponse)],
                role: .assistant
            )
            messages.append(assistantMessage)

        default:
            break
        }
    }

そして、アプリケーションで得られた結果は驚くべきものでした。

試験本番が近づく頃には、娘の自信は深まっており、準備は万端でした。そして私は、HAQM Bedrock のマルチモーダル機能がユーザーにとって有意義なエクスペリエンスをどのように生み出すことができるのかを示す、説得力のある実例を用意することができました。

今すぐご利用いただけます
新しいモデルは、次のリージョンレベルの API エンドポイントを通じてご利用いただけます: 米国東部 (オハイオ、バージニア北部)、米国西部 (オレゴン)、欧州 (フランクフルト、アイルランド、パリ、ストックホルム)。これらのリージョンで利用できることで、レイテンシーを最小限に抑えながら、データレジデンシー要件を満たすことができます。

このモデルは、AWS マネジメントコンソールを通じてご利用いただけるほか、モデル ID mistral.pixtral-large-2502-v1:0 を使用して、AWS コマンドラインインターフェイス (AWS CLI) と AWS SDK を通じてプログラムでご利用いただくことも可能です。

このリリースは、あらゆる規模のデベロッパーや組織が高度なマルチモーダル AI を利用できるようにするための大きな 1 歩です。Mistral AI の最先端モデルと AWS サーバーレスインフラストラクチャを組み合わせることで、基盤となる複雑さについて心配することなく、革新的なアプリケーションの構築に注力できるようになりました。

今すぐ HAQM Bedrock コンソールにアクセスして、Pixtral Large 25.02 の実験を開始し、AI を活用したアプリケーションをどのように強化できるのかをご確認ください。

– seb

ニュースブログはいかがでしたか? こちらの 1 分間のアンケートにぜひご協力ください!

(このアンケートは外部企業に委託して行われます。AWS は、AWS プライバシー通知に記載された内容に従って、お客様の情報を取り扱います。AWS は、このアンケートを通じて収集したデータを所有し、収集した情報をアンケートの回答者と共有することはありません)

原文はこちらです。

HAQM Web Services ブログ

AWS が HAQM Bedrock サーバーレスにおける Pixtral Large 25.02 モデルを発表

お役立ちリンク

フォローお願いいたします