投稿日: May 10, 2021
HAQM SageMaker は、機械学習モデルのトレーニング用に Elastic Fabric Adapter (EFA) のサポートを開始しました。EFA は、AWS 上で大規模なノード間通信を高いレベルで必要とするようなアプリケーションの実行を可能にする、HAQM EC2 インスタンスのためのネットワークインターフェイスです。EFA は、追加費用なしで SageMaker の分散トレーニングを大幅に高速化できます。例えば、32 ml.p4d.24xlarge インスタンスで SageMaker の分散データ並列ライブラリを使用して BERT 自然言語処理モデルをトレーニングしました。トレーニングは、Elastic Network Adapter (ENA) と比較して EFA で最大 130% 高速に行われました。
分散トレーニングにより、デベロッパーとデータサイエンティストはモデルをより速くトレーニングし、モデルの質を向上させることができます。お客様がSageMaker 分散トレーニングライブラリを使用するのは、このライブラリが大規模な深層学習モデルとデータセットをトレーニングするための高速で簡単な方法を提供するためです。EFA 独自のオペレーティングシステムバイパスネットワーキングメカニズムは、インスタンス間通信のパフォーマンスを向上させ、SageMaker での分散トレーニングをさらに高速化します。
SageMaker で EFA を使用するために追加費用をお支払いいただく必要はありません。SageMaker の EFA は現在、ml.p3dn.24xlarge、ml.p4d.24xlarge、および ml.c5n.18xlarge インスタンスでサポートされています。TensorFlow および PyTorch Deep Learning Containers を使用する SageMaker 分散トレーニングジョブは、お客様側でのアクションを必要とすることなく、自動的に EFA を利用します。EFA は、最小限の設定変更で VPC またはカスタム Docker イメージを使用するトレーニングジョブ向けに有効にできます。
HAQM SageMaker での EFA サポートの詳細については、SageMaker 分散トレーニングライブラリのドキュメント、またはコンテナで EFA を使用してトレーニングを実行する方法をご覧ください。使用を開始するには、HAQM SageMaker コンソールにログインします。