HAQM Web Services ブログ
AWS による生成 AI のコスト最適化
あなたや組織が生成 AI 技術を検討をしている最中であれば、これらの先進的なアプリケーションにどの程度の投資が必要か把握しておくことが重要です。運用効率の向上、生産性の向上、顧客満足度の向上など、生成 AI への投資によって期待される利益を目指す一方で、コスト最適化と効率向上を実現するための手段についても十分理解しておく必要があります。この刺激的な旅を案内するため、AI プラクティショナーや FinOps リーダーが AWS での生成 AI 導入に関連するコスト最適化の方法を理解するのに役立つ実践的なヒントを満載した一連のブログ記事を公開していく予定です。
AWS の生成 AI スタック全体にわたる柔軟な実装と価格オプション
生成 AI 技術を活用してビジネスアプリケーションを強化する際に、AWS の生成 AI スタック全体で幅広い実装オプションが見つかるでしょう。通常以下の 3 つの一般的な実装アプローチが採用されています。
- 高度な機械学習の専門知識を持ち、制御と柔軟性を最大限に必要とする組織では、AWS のインフラストラクチャーを使用してカスタムモデルのトレーニングとデプロイを行うことができます。HAQM Elastic Compute Cloud (HAQM EC2) は最高レベルの制御を提供しますが、自分で機械学習インフラストラクチャーとフレームワークを管理する必要があります。一方、HAQM SageMaker AI は、カスタムモデル開発の柔軟性を維持しながら、インフラストラクチャーの重い作業を処理するフルマネージドサービスを提供します。SageMaker JumpStart は、完全なカスタム開発と事前トレーニング済みモデルの中間点となるような、ファインチューニングが可能な構築済みのソリューションとモデルを提供します。
- 機械学習への取り組みの初期段階にあり、カスタマイズと利便性のバランスを求めている組織は、 HAQM Bedrock を通じて Anthropic、AI21 Labs、HAQM、Meta、Deepseek R1 などのプロバイダーが提供する主要な事前トレーニング済み AI モデルにアクセスできます。
- 最小限の設定で迅速に実装するには、AWS の生成 AI 搭載アシスタントである HAQM Q を使用してすぐに使えるアプリケーションをデプロイできます。これにより、組織データへのアクセスが容易になったり、コードを書いたり、コンテンツを生成したり、質問に答えたりすることができます。
それぞれの実装アプローチには、コスト最適化を目的とした柔軟な価格オプションが用意されています。AWS のインフラストラクチャーを活用してカスタムモデルのトレーニングとデプロイを行う場合、安定したワークロードには Compute Savings Plans と Machine Learning Savings plans を、フォールトトレラントなトレーニングタスクにはスポットインスタンスを利用できます。HAQM Bedrock 経由でモデルにアクセスする場合、トークン単位の従量課金であるオンデマンド料金設定、プロビジョンドスループットによるキャパシティーの予約、もしくは一括処理用のバッチ推論のいずれかを選択できます。HAQM Q を使用して組織のソフトウェア開発とビジネスプロセスを変革する場合は、2 つのサブスクリプションモデル (Business Lite と Business Pro) を提供する HAQM Q Business、もしくは無料利用枠と Pro の階層の両方を提供する HAQM Q Developer のいずれかを選択できます。
(画像内訳:私たちは、コストを最適化し、価値を最大化しながら、お客様が生成 AI の力を活用できるよう支援することに全力を注いでいます。生成 AI サービスの革新と拡大を続ける中で、これらのテクノロジーを効率的かつ費用対効果の高い方法で使用するための知識とツールをお客様に提供することにも同様に注力しています。私達が AI の取り組みを共同で加速するために、すべてのお客様とパートナーにこれらのコスト最適化手法を検討することをお勧めします。
Rahul Pathak、データ・AI事業開発担当副社長)
生成AI を成功させるためのクラウド財務管理戦略
多くの組織にとってパンデミックがクラウドアプリケーションのコストを再評価する重要な転換点であったとすれば、パンデミック後の回復期と生成 AI への関心の高まりが相まって、技術への投資を精査することが必要になるでしょう。組織で明確なクラウド財務管理(CFM)戦略をまだ設定していない場合、今がクラウド投資を検討し、基本的な CFM を実践する時です。
- 事前の慎重な検討:ビジネスのニーズを技術的な構成に変換して、生成 AI プロジェクトのコストを見積もります。AWS Pricing Calculator を使用して、スタンドアロンプロジェクトのコストを見積もったり、生成 AI プロジェクトに関連するリソースの変更を既存のクラウドワークロードに追加/変更したり、請求全体をシミュレートしたりできます。Pricing Calculator の請求見積もり機能では、割引条件をより正確に考慮できます。実際の生成 AI アプリケーションに関しては、検索拡張生成(RAG)や Text-to-SQL クエリのような実証済みのパターンから始めることをお勧めします。通常これらのパターンはドキュメント化とコスト構造が確立されているため、コスト計画と管理が簡単になります。
- 継続的な監視:コストや使用量が上限を超えた際に通知する AWS Budgets のアラートを使用し、個別の事業部門の予算上限を設定します。その月の総コストの予算を作成したり、サービス、タグやコストカテゴリなどのディメンションを使用して特定のサービスに関連するコストや使用量を追跡する予算を作成することもできます。 AWS Cost Anomaly Detection で検出された各コスト異常の根本原因分析に注意してください。AWS リージョン、アカウント、サービスや使用タイプを詳細に分析することで、潜在的なコスト超過の原因を迅速に特定して対処することができます。
- 全体像の把握:生成 AI への投資を分析する際には、初期開発(例:データの準備、モデルの選定、カスタマイズ)、継続的な運用(例:コンピューティング、ストレージ、エネルギー)や管理費(例:教育、監視)を含む総所有コスト(TCO)を含める必要があります。AWS Cost Explorer と Data Exports を使用して、生成 AI プロジェクトで利用する AWS サービスで発生したコストと使用量を確認できます。ただし、他のすべての費用を追跡し続けることも同様に重要です。投資の全容が明らかになったら、これらの費用を責任部門に割り当てることをお勧めします。そうすることで、ユーザーは適切な可視性を得て、支出に対する説明責任を負うことができます。クラウドへの投資とビジネス成果(例:テキスト要約あたりのコスト、画像生成あたりのコスト)やパフォーマンスの境界(例:応答時間)と関連付ける KPI ターゲットは、投資効果を評価し適切な行動を促すための優れた方法です。
- 知識を深めて実践に活かす:クラウドの俊敏性とスケーラビリティを活用して生成 AI アプリケーションを開発および拡張し、利用可能なすべてのディスカウントにより購入オプションを戦略化します。生成 AI ワークロードは GPU ベースのインスタンスの恩恵を受けることができます。AWS Compute Optimizer は、GPU 使用率を含む複数のメトリクスをモニタリングし適切なサイズに関する推奨事項を提示します。Compute Optimizer が GPU メトリクスを収集するために、NVIDIA ドライバーと HAQM CloudWatch エージェントをインストールする必要があります。詳細は、 NVIDIA GPU メトリクスを収集する、を参照してください。HAQM SageMaker AI は、生成 AI モデルを開発、トレーニング、デプロイするための包括的なプラットフォームを提供します。HAQM SageMaker と高速コンピューティングインスタンスに対するニーズが一貫している場合は、SageMaker Savings Plans の活用を検討してください。Savings Plans Purchase Analyzer を使用して、SageMaker Savings Plans の時間あたりのコミットメントのコスト影響を推定できます。
基本的な CFM スキルを取得したいのであれば、都合のいいときに無料のデジタルトレーニングコースを受講できます。AWS Certified AI Practitioner は AWS の AI/ML 技術にさらに親しむために役立ちます。
トレードオフの対策:生成 AI アプリケーションのコスト最適化とパフォーマンスのバランス
上記の CFM 戦略に加えて、生成 AI ワークロードで検討できるコスト最適化戦略が他にも多くあります。これらの方法は大幅なコスト最適化のメリットをもたらすだけでなく、アプリケーション全体のパフォーマンスも向上させます。プロンプトキャッシュ:頻繁に使用されるプロンプトとその応答をキャッシュすることで、応答時間を短縮し、重複する API 呼び出しを削減します。モデル蒸留:推論のレイテンシーを下げ全体的なコンピューティングとメモリ使用率を削減するために、特定のユースケースにフォーカスする小さなモデルをトレーニングします。バッチ処理:複数のリクエストを 1 つのバッチにまとめて処理することで、GPU の使用率を改善しスループットを向上させます。
ただし、これらコスト最適化の方法を実装する際にはトレードオフがあります。リソースの効率性とアプリケーションの信頼性のバランスや応答時間と出力の品質・深さのバランスをどの程度取るかを検討します。アプリケーションとユーザーエクスペリエンスを設計し改良していく中で、異なる手法を試し、精度を最大化しレイテンシーを最小限に抑えることで、最終的にカスタマーエクスペリエンスを向上させる最適なハイブリッドアプローチを見つけることができます。
今後の予定
様々な生成 AI サービスを採用しながら、コスト最適化戦略を見つけ実装する支援をするため、特定の AI サービスを利用する際に考慮すべき重要な分野を掘り下げた以下のブログ記事を公開する予定です。ブログ記事を公開次第リンクを追加します。
- HAQM EC2 と SageMaker AI を利用したカスタム AI モデル開発のコスト最適化 (リンク)
- HAQM Bedrock で基盤モデルを使用する際のコスト最適化
- HAQM Q をデプロイする際のコスト最適化
- 生成 AI をサポートするインフラストラクチャーのコスト最適化
翻訳はテクニカルアカウントマネージャーの加須屋 悠己が担当しました。原文はこちらです。