HAQM EC2 Inf2 インスタンス

HAQM EC2 の生成系 AI 推論で、最小のコストで高いパフォーマンスを実現

HAQM EC2 Inf2 インスタンスを使用すべき理由

HAQM Elastic Compute Cloud (HAQM EC2) Inf2 インスタンスは、深層学習 (DL) 推論専用に構築されています。大規模言語モデル (LLM) やビジョントランスフォーマーなどの生成系人工知能 (AI) モデル向けに、HAQM EC2 で最小のコストで高いパフォーマンスを実現します。Inf2 インスタンスを使用して、テキストの要約、コード生成、ビデオと画像の生成、音声認識、パーソナライズ、不正検出などの推論アプリケーションを実行できます。

Inf2 インスタンスは、第 2 世代の AWS Inferentia チップである AWS Inferentia2 を搭載しています。Inf1 インスタンスと比較し、Inf2 インスタンスは、最大 3 倍のコンピューティングパフォーマンス、最大 4 倍のアクセラレーターメモリ、最大 4 倍のスループット、10 分の 1 以下の低レイテンシーのパフォーマンス向上を実現します。Inf2 インスタンスは Inferentia チップ間の超高速接続を備えた、スケールアウト分散推論をサポートする、HAQM EC2 で最初の推論最適化インスタンスです。Inf2 インスタンス上の複数のチップにわたって、数千億のパラメータを持つモデルを効率的かつコスト効率よくデプロイできるようになりました。

AWS Neuron SDK は、デベロッパーが AWS Inferentia チップのモデルをデプロイし、AWS Trainium チップでそれらをトレーニングするのに役立ちます。PyTorch や TensorFlow などのフレームワークとネイティブに統合されているため、既存のワークフローやアプリケーションコードを引き続き使用し、Inf2 インスタンスを実行することができます。

利点

100 億以上のパラメーター、および生成系 AI モデルを大規模にデプロイ

Inf2 インスタンスは、HAQM EC2 で初めて大規模な分散推論をサポートした推論最適化インスタンスです。チップ間の超高速接続を使用して、Inf2 インスタンス上の複数の Inferentia チップに数千億のパラメータを持つモデルを効率的にデプロイできるようになりました。

推論コストを大幅に削減しながらパフォーマンスを向上

Inf2 インスタンスは、DL デプロイ向けの HAQM EC2 で、最低コストで優れたパフォーマンスを提供するように設計されています。これらは、HAQM EC2 Inf1 インスタンスと比較して、最大 4 倍のスループットと、最大 10 分の 1 以下の低レイテンシーを提供します。 Inf2 インスタンスは、他の同等の HAQM EC2 インスタンスに比べて、料金パフォーマンスが最大 40% 向上します。

既存の ML フレームワークとライブラリを使用

AWS Neuron SDK を使用して、Inf2 インスタンスのパフォーマンスを最大限に引き出します。Neuron を使用すると、PyTorch や TensorFlow などの既存のフレームワークを使用して、Hugging Face などの一般的なリポジトリにあるモデルのパフォーマンスをすぐに最適化できます。Neuron は、TorchServe や TensorFlow Serving などのサービングツールとのランタイムインテグレーションをサポートしています。また、組み込みのプロファイルや Neuron-Top などのデバッグツールでパフォーマンスを最適化したり、TensorBoard などの一般的な視覚化ツールに統合したりするのにも役立ちます。

エネルギー効率の高いソリューションで持続可能性の目標を達成

Inf2 インスタンスは、他の同等の HAQM EC2 インスタンスに比べて、ワットあたりのパフォーマンスが最大 50% 向上します。これらのインスタンスと基盤となる Inferentia2 チップは、高度なシリコンプロセスとハードウェアとソフトウェアの最適化を使用して、DL モデルを大規模に実行する際に高いエネルギー効率を実現します。 Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。

特徴

AWS Inferentia2 で最大 2.3 ペタフロップス

Inf2 インスタンスは、合理化された集団通信のために超高速の NeuronLink に接続された最大 12 個の AWS Inferentia2 チップを搭載しています。これらは、最大 2.3 ペタフロップスのコンピューティング、および、Inf1 インスタンスよりも最大 4 倍のスループットと 10 分の1以下の低レイテンシーを提供します。

最大 384 GB の高帯域幅アクセラレーターメモリ

大規模な DL モデルに対応するため、Inf2 インスタンスは最大 384 GB の共有アクセラレーターメモリ (各 Inferentia2 チップで 32 GB HBM、第 1 世代の Inferentia の 4 倍) と総メモリ帯域幅が 9.8 TB/s (第 1 世代の Inferentia の 10 倍) を備えています。

NeuronLink 相互接続

Inferentia2 チップ間の高速通信のために、Inf2 インスタンスは、192 GB/ 秒の NeuronLink 超高速ノンブロッキング相互接続をサポートしています。Inf2 は、この相互接続を提供する唯一の推論最適化インスタンスです。この機能はより高価なトレーニングインスタンスでのみ利用できます。単一のチップに収まらない超大型モデルの場合、データは NeuronLink を使用してチップ間を直接流れ、CPU を完全にバイパスします。NeuronLink により、Inf2 はより高速な分散推論をサポートし、スループットとレイテンシーを向上させます。

自動キャストによる新しいデータタイプに最適化

Inferentia2 は FP32、TF32、BF16、FP16、UINT8、および新しく設定可能な FP8 (CFP8) データタイプをサポートしています。AWS Neuron は、精度とパフォーマンスを最適化しながら、高精度の FP32 および FP16 モデルを取得して、低精度のデータタイプに自動キャストします。自動キャスティングにより、精度の低い再トレーニングが不要になり、より小さなデータタイプでより高性能な推論が可能になるため、市場投入までの時間が短縮されます。

最先端の DL 最適化

速いペースの DL イノベーションをサポートするために、Inf2 インスタンスは、絶えず進化する DL モデルをデプロイするための柔軟性と拡張性を実現するいくつかのイノベーションを備えています。Inf2 インスタンスは、ハードウェアの最適化と動的入力シェイプのソフトウェアサポートを備えています。将来的に新しい演算子をサポートできるようにするため、C++ のカスタム演算子をサポートしています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。

製品の詳細

インスタンスサイズ	Inferentia2 チップ	アクセラレーターメモリ (GB)	vCPU	メモリ (GiB)	ローカルストレージ	チップ間相互接続	ネットワーク帯域幅 (Gbps)	EBS 帯域幅 (Gbps)	オンデマンドの料金	1 年契約リザーブドインスタンス	3 年契約リザーブドインスタンス
inf2.xlarge	1	32	4	16	EBS のみ	該当なし	最大 15	最大 10	0.76 USD	0.45 USD	0.30 USD
inf2.8xlarge	1	32	32	128	EBS のみ	該当なし	最大 25	10	1.97 USD	1.81 USD	0.79 USD
inf2.24xlarge	6	192	96	384	EBS のみ	はい	50	30	6.49 USD	3.89 USD	2.60 USD
inf2.48xlarge	12	384	192	768	EBS のみ	はい	100	60	12.98 USD	7.79 USD	5.19 USD

お客様とパートナーの声

お客様とパートナーが HAQM EC2 Inf2 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。

Leonardo.ai

Leonardo のチームは生成 AI を活用して、クリエイティブなプロフェッショナルや、クリエイティブなことに熱心に取り組む人々が、比類のない品質、スピード、スタイルの一貫性を備えたビジュアルアセットを制作できるようにしています。AWS Inf2 の価格対パフォーマンス AWS Inf2 を利用することで、パフォーマンスを犠牲にすることなくコストを 80% 削減でき、お客様に提供できる価値提案を根本的に変え、最も高度な機能をより手頃な価格で利用できるようになりました。また、当社の成長と規模拡大に伴ってますます重要になる補助 AI サービスのコストと容量の可用性に関する懸念も緩和されます。生成 AI の可能性を広げ続け、ユーザーの創造性と表現力の新時代を実現する上で、これは当社にとって重要なイネーブリングテクノロジーです。

Leonardo.ai、Head of AI、Pete Werner 氏
Runway

Runway の AI Magic Tools スイートにより、ユーザーはこれまでにない方法でコンテンツを生成および編集できます。私たちは常に、AI を活用したコンテンツ制作で可能なことの限界を押し広げています。そして AI モデルが複雑になるにつれて、これらのモデルを大規模に実行するための基盤となるインフラストラクチャのコストが高くなる可能性があります。AWS Inferentia を搭載した HAQM EC2 Inf2 インスタンスとのコラボレーションにより、同等の GPU ベースのインスタンスよりも最大 2 倍のスループットで一部のモデルを実行できるようになりました。このハイパフォーマンスで低コストな推論により、より多くの機能を導入し、より複雑なモデルをデプロイして、最終的に Runway を使用する何百万人ものクリエイターにより優れたエクスペリエンスを提供できるようになりました。

Runway、共同創業者兼 CEO、Cristóbal Valenzuela 氏
Qualtrics

Qualtrics は、エクスペリエンス管理ソフトウェアを設計および開発しています。

Qualtrics では、お客様、従業員、ブランド、製品のエクスペリエンスギャップを解消するテクノロジーを構築することに重点を置いています。そのために、複雑なマルチタスク、マルチモーダル DL モデルを開発して、テキスト分類、シーケンスのタグ付け、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新機能をリリースしています。これらの複雑なモデルをより多くのアプリケーションで活用するにつれ、非構造化データの量は増加し、お客様に最高のエクスペリエンスを提供するためには、Inf2 インスタンスなど、これらの要求に対応できる、より性能の高い推論最適化ソリューションが必要です。新しい Inf2 インスタンスは、レイテンシーを劇的に低減しながら、より多くのスループットを達成できるだけでなく、分散推論や拡張された動的入力形状サポートといった機能も導入しており、より大規模で、より複雑なモデルへのデプロイニーズを満たすためのスケールに役立つため、当社は高揚感を覚えています。

Qualtrics、Head of Core Machine Learning、Aaron Colak 氏
Finch Computing

Finch Computing は、政府、金融サービス、データインテグレーターのクライアント向けに人工知能アプリケーションを提供する自然言語テクノロジー企業です。

リアルタイムの自然言語処理に対するお客様のニーズに応えるため、大規模な本番ワークロードにスケールする最先端の DL モデルを開発しています。グローバルなデータフィードを処理するために、低レイテンシーのトランザクションを提供し、高いスループットを達成する必要があります。私たちはすでに多くの本番ワークロードを Inf1 インスタンスに移行し、GPU に比べて 80% のコスト削減を達成しました。現在、私たちは、書かれたテキストからより深く、よりインサイトに満ちた意味を導き出す、より大規模で複雑なモデルを開発しています。多くのお客様がこれらのインサイトにリアルタイムでアクセスする必要があります。そして Inf2 インスタンスのパフォーマンスは、Inf1 インスタンスよりも低いレイテンシーと高いスループットを実現するのに役立ちます。Inf2 のパフォーマンス改善と、動的入力サイズのサポートなどの Inf2 の新機能により、当社はコスト効率を改善し、リアルタイムのカスタマーエクスペリエンスを改善するとともに、お客様がデータから新しいインサイトを得られるようサポートしています。

Finch Computing、Chief Architect、Franz Weckesser 氏
Money Forward Inc.

株式会社マネーフォワードは、オープンでフェアな金融プラットフォームを企業や個人に提供しています。このプラットフォームの一部として、マネーフォワードのグループ企業である株式会社 HiTTO は、カスタマイズされた自然言語処理 (NLP) モデルを使用して企業顧客の多様なニーズに対応する AI チャットボットサービスを提供しています。

HAQM EC2 Inf1 インスタンスで大規模な AI チャットボットサービスを開始し、同等の GPU ベースのインスタンスと比較して推論レイテンシーを 97% 低減するとともに、コストを削減できました。HAQM EC2 Inf2 インスタンスでの最初のテスト結果で、さらなるパフォーマンスの向上を確認できたことは非常に喜ばしいことです。同じカスタム NLP モデルを使用して、AWS Inf1 と比較して、Inf2 はさらにレイテンシーを 10 倍削減することができました。数十億を超える大規模なパラメータモデルに移行するにあたり、Inf2 はお客様に優れたエンドツーエンドのユーザーエクスペリエンスを提供し続けることができるという自信を与えてくれます。

株式会社マネーフォワード、CTO、中出匠哉氏
Fileread

Fileread.ai では、質問をするのと同じくらい簡単にドキュメントを操作できるソリューションを構築しています。これにより、ユーザーはすべてのドキュメントから探しているものを見つけて、適切な情報をより早く得ることができます。新しい Inf2 EC2 インスタンスに切り替えてから、NLP の推論能力が大幅に向上しました。コスト削減をするだけで、品質を犠牲にすることなくリソースをより効率的に割り当てることができるため、画期的なことでした。推論のレイテンシーが 33% 削減し、スループットが 50% 向上しました。このより速い転向の実現により、お客様に喜ばれています。当社のチームは、古い G5 インスタンスと比較して Inf2 のスピードとパフォーマンスに深い感銘を受けました。これが将来の NLP モデルのデプロイであることは明らかです

Fileread、CEO、Daniel Hu 氏
Yaraku

八楽の使命は、人々が言葉の壁を越えてコミュニケーションをとるのに役立つインフラを構築することです。当社の主力製品であるヤラクゼンを使用すると、プロの翻訳者からモノリンガルの個人まで、誰でも自信を持ってテキストや文書を翻訳し、ポストエディットすることができます。このプロセスをサポートするために、翻訳、バイテキストの単語の整列、文章の分割、言語モデリングなど、様々なタスクをカバーする、深層学習モデルに基づいたさまざまな高度なツールを提供しています。Inf1 インスタンスを使用することで、GPU ベースのインスタンスと比較して、推論コストを 50% 以上削減しながら、増え続ける需要を満たすためにサービスをスピードアップすることが可能になりました。現在、次世代の大規模モデルの開発に移行しています。そのためには、低レイテンシーを維持しながら需要を満たすことのできる、Inf2 インスタンスの拡張機能が必要です。Inf2 を使用すると、同様のスループットを維持しながらモデルを 10 倍にスケールアップでき、さらに高いレベルの質をお客様に提供できるようになります。

Yaraku、NLP Lead、Giovanni Giacomo 氏
Hugging Face

Hugging Face のミッションは、世界中の ML デベロッパーが実世界の問題を解決できるよう、優れた ML を民主化することです。そのための鍵は、最新かつ最高のモデルを、クラウド内の最高の ML チップで可能な限り高速かつ効率的に実行できるようにすることです。私たちは Inferentia2 が、生成 AI モデルを大規模に展開するための新しい標準方法になる可能性があることに、非常に興奮しています。Inf1 では、従来の GPU ベースのインスタンスと比較し、最大 70% のコスト削減を実現し、Inf2 では、BERT のようなトランスフォーマーのレイテンシーが Inferentia1 と比較して最大 8 倍低くなりました。Inferentia2 により、私たちのコミュニティは、このパフォーマンスを 100B 以上のパラメータ規模の LLM や、最新の拡散モデルやコンピュータビジョンモデルにも容易にスケールできるようになるでしょう。
PyTorch

PyTorch は、ML デベロッパーのために、研究用プロトタイピングから本番デプロイまでのプロセスを加速しています。私たちは AWS チームと協力して、新しい AWS Inferentia2 搭載の HAQM EC2 Inf2 インスタンスにネイティブ PyTorch サポートを提供してきました。コミュニティで大規模な生成 AI モデルのデプロイを検討するメンバーが増えるにつれ、AWS チームと提携して、チップ間の高速 NeuronLink 接続により Inf2 インスタンスの分散推論を最適化できることを嬉しく思います。Inf2 により、PyTorch を使用する開発者は超大型 LLM やビジョントランスフォーマーモデルを簡単にデプロイできるようになりました。さらに、Inf2 インスタンスは、効率的なデータタイプ、動的形状、カスタム演算子、ハードウェアに最適化された確率的丸めなど、PyTorch デベロッパーに他の革新的な機能をもたらしており、PyTorch コミュニティでの幅広い採用に適したインスタンスとなっています。
Nextira

LLM、そしてさらに広くエンタープライズレベルの生成 AI アプリケーションにおける歴史的な課題は、高性能 DL モデルのトレーニングと実行に関連するコストです。AWS Trainium と合わせて、AWS Inferentia2 は、お客様が高性能なトレーニングを必要とする場合に生じる経済的な妥協を排除します。今では、トレーニングと推論のメリットを求めているお客様が、より少ない費用でより良い結果を達成できるようになりました。Trainium と Inferentia は、今日の大企業が抱える最も厳しい DL 要件にも対応できるようにスケールを加速します。大規模な AI ワークロードを実行している Nextira の多くのお客様は、これらの新しいチップセットの恩恵を直接受け、コスト削減とパフォーマンスの効率を高め、市場での成果をより早く得られるようになるでしょう。

Nextira、創業者兼 CEO、Jason Cutrer 氏
HAQM CodeWhisperer

HAQM CodeWhisperer は、統合開発環境 (IDE) で単一行コードまたは完全関数コードの推奨をリアルタイムで生成する AI コーディングコンパニオンで、ソフトウェアをすばやく構築するのに役立ちます。

CodeWhisperer では、生成 AI モデルを使用してコードに関するレコメンデーションを提供することで、ソフトウェアデベロッパーの生産性を高めています。非常に効果的なコード推奨を開発するために、DL ネットワークを数十億のパラメーターにスケーリングしました。お客様は、入力中にリアルタイムで推奨されるコードを必要としています。そのため、応答の低レイテンシー化が不可欠です。大規模な生成系 AI モデルでは、ほんの一瞬で応答時間を達成するために高性能なコンピューティングが必要です。Inf2 では、大規模な入出力シーケンス用に最適化された GPU インスタンスのトレーニングで CodeWhisperer を実行するのと同じレイテンシーを実現しています。そのため、Inf2 インスタンスは、デベロッパーに可能な限り最高のエクスペリエンスを提供しながら、コストと電力を節約するのに役立っています。

HAQM CodeWhisperer、General Manager、Doug Seven
HAQM Search

HAQM の商品検索エンジンは、何十億もの商品をインデックス化し、毎日何十億ものお客様のクエリに対応しており、世界で最も利用されているサービスの 1 つです。

Inf2 の一般公開に大きな高揚感を覚えています。Inf2 の優れたパフォーマンスと、数十億のパラメーターを持つ大規模なモデルを処理する能力が相まって、当社のサービスに最適な選択肢となり、モデルの複雑さと精度の点で新しい可能性を切り開くことができます。Inf2 によって実現される大幅なスピードアップとコスト効率により、HAQM Search のサービスインフラストラクチャに統合することで、お客様からの高まる需要に応えることができます。Inf2 と生成 LLM を使用して、新しいショッピングエクスペリエンスを強化するつもりです。

HAQM Search、VP、Trishul Chilimbi

開始方法

HAQM SageMaker の使用

HAQM SageMaker を利用すると、Inf2 インスタンスにモデルをより簡単にデプロイでき、インフラストラクチャを管理することなく、ML モデルをデプロイするコストを大幅に削減して、パフォーマンスを改善できます。SageMaker はフルマネージドサービスであり、MLOps ツールと統合されています。そのため、モデルのデプロイをスケールし、本番でモデルをより効果的に管理して、運用上の負担を軽減できます。

AWS Deep Learning AMI の使用

AWS Deep Learning AMI (DLAMI) は、その規模を問わず、クラウド上で DL を加速するためのインフラストラクチャとツールを、DL の実践者と研究者に提供します。AWS Neuron ドライバーは DLAMI で事前設定されており、DL モデルを Inf2 インスタンスに最適にデプロイできます。

AWS 深層学習コンテナを使用する

フルマネージド Kubernetes サービスである HAQM Elastic Kubernetes Service (HAQM EKS) と、フルマネージドコンテナオーケストレーションサービスである HAQM Elastic Container Service (HAQM ECS) で Inf2 インスタンスをデプロイできるようになりました。また、Neuron は AWS 深層学習コンテナに事前インストールされており、使用可能です。Inf2 インスタンスでのコンテナ実行の詳細については、Neuron コンテナのチュートリアルをご覧ください。

AWS クラウドの開始方法

ステップ 1 – AWS アカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。

詳細はこちら

ステップ 2 – 10 分間のチュートリアルで学ぶ

簡単なチュートリアルで調べて学ぶことができます。

詳細はこちら

ステップ 3 – AWS で構築を開始する

AWS プロジェクトを起動するのに役立つステップごとのガイドを使用して構築を開始します。

詳細はこちら

HAQM EC2 Inf2 インスタンス

HAQM EC2 の生成系 AI 推論で、最小のコストで高いパフォーマンスを実現