HAQM Web Services ブログ
寄稿:JSR は産学連携研究拠点の HPC 環境に AWS ParallelCluster と AWS DataSync を導入することでデータセンターの CPU を 33% 、ストレージを 85% 削減しライフサイエンス研究効率を向上しました
はじめに
JSR 株式会社 (以下、 JSR ) はライフサイエンス事業の研究開発における HPC 環境利用において、 AWS を活用することでオンプレミスデータセンターの CPU とストレージを削減し利用効率を高めるとともに、研究者のインフラ管理負荷を下げ研究効率を向上しました。このブログでは JSR株式会社 JSR・慶應義塾大学 医学化学イノベーションセンター (JKiC) 青戸 良賢 様に JSR 様のチャレンジと AWS 導入効果に関する記事を寄稿いただきました。
JSR のライフサイエンス事業への取り組み
JSR のライフサイエンス事業に関わる産学連携研究拠点では、医学・生物学研究を通じて新規モダリティによる創薬や創薬支援事業の拡充などを目指しています。中でも、バイオインフォマティクスやメディカルインフォマティクスに関わる研究では大規模計算が必要で、これまで JSR はオンプレミスデータセンターを中心に利用して参りました。
オンプレミス上の大規模計算における課題
オンプレミスサーバーの導入から月日が経過し、更新も視野に入ってきた頃、 以下に挙げるいくつかの課題がうまれ、JSR は本格的に AWS の利用を検討し始めました。
散発的な大規模計算によるボトルネック: 研究所での日常的な解析業務が消費する CPU 占有率は、既設サーバーの 25 – 50% 程度です。しかし、これと別に各プロジェクトの進捗や実験に応じて、半月や数か月に 1 度のサイクルでそれぞれ非定常な大規模計算が発生します。実験にもよりますが、 1 回の実験で数十~数百検体分、 10 GB – 15 TB 程度のデータが生成され、この解析処理により CPU ・メモリ・ストレージのいずれかが常にボトルネックとなっていました。
増加し続けるデータの管理: 一般にライフサイエンス研究拠点では、実験で生成される大容量データの取り扱いも課題となります。 JSR の研究所では、多くのデータサンプルは再収集の難しい貴重な検体が由来で、中には 1 回の実験にかかる費用が数百万円を要するほど高額なものもあるため、データは長期間安全に保管できることが求められます。そのため、データの保存場所やバックアップなどを熟慮する必要があります。これまで、 JSR はポータブルデバイスなどを用いて手作業で実験装置からサーバーにデータをアップロードし、さらに、サーバーとは別に用意した物理ストレージにバックアップを作成していました。日々増え続ける研究データの管理は煩雑ですが、非効率であることを理解しつつも確実性が高いと考え、手作業で対応していました。
GPU調達の困難さ: 加えて、機械学習用途の GPU 計算にも課題がありました。従来、 GPU の調達、特に設備導入には予算の都合から年度単位で時間を要しており、日進月歩の AI 分野で要件を満たす機器選定と予算策定は難しい課題でした。そこで HAQM EC2 のオンデマンドインスタンスを調達して対応していましたが、起動・停止を含めたコスト管理に手間が発生し、ユーザーの心理的ハードルになっていました。
ソリューション
JSR は課題を解決するために、大規模計算環境に AWS のマネージドサービスを導入し、ハイブリッドクラウド構成にしました。オンプレミスサーバーはベースラインとなる計算量に対応した形でダウンスケールして更新し、非定常な計算や大容量ストレージを必要とする解析は AWS ParallelCluster で柔軟にリソースを管理できるマネージドの HPC 環境を構築しました。 AWS ParallelCluster はジョブスケジューラである Slurm のパーティション (キュー) を工夫することで、計算需要に応じた種類・サイズのインスタンスが自動で起動し、ジョブが完了すると自動で停止する構成が実現可能です。 JSR は CPU 計算用のパーティションに加え、 GPU 計算用のパーティションを用意することで、より柔軟でコスト最適な構成を実装しています。インスタンスタイプの追加・変更も容易で、オンプレミスサーバーでは不可能な、その時々の需要に応じた HPC 構成が得られます。
また、 AWS DataSync によるデータ転送とバックアップを実装したことで、実験データを自動で解析環境とバックアップストレージのそれぞれへ転送できるようになりました。データ転送を深夜帯に設定することでユーザーの待機時間を低減できます。本環境では研究施設のネットワーク構成上の制約に配慮し AWS DataSync Agent を HAQM EC2 に配備しました。
さらに、 HAQM S3 のストレージクラスを、バックアップデータは HAQM S3 Glacier の Deep Archive ストレージクラス、解析データは HAQM S3 Intelligent-Tiering といった形で用途に応じたストレージクラスを採用することでコスト最適化も図っています。加えて、 Nextflow で実装したゲノミクス解析パイプラインを AWS Batch 上で稼働する計画もあり、現在検証中です。
図 1 JSR のライフサイエンス研究用大規模計算環境構成図
導入効果
JSR はライフサイエンス研究用大規模計算環境に AWS のマネージドサービスを導入したことによって、オンプレミスデータセンターだけを用いていた時代と比べ、以下の効果を得られました。
- オンプレミスサーバー ( CPU 計算リソース) のダウンスケール化: 散発的な大規模計算を AWS で動かすことによって、 JSR はオンプレミスに余剰リソースを確保する必要がなくなりました。この結果、オンプレミスサーバーの CPU 数を 33% 、ストレージ容量を 85% 削減するに至りました。
- 自動でコスト管理が可能な CPU ・ GPU 計算リソースの確保:従来は利用までに 1 年程度かかっていた GPU リソースの調達が数分で利用可能となり、研究を進める上で物理リソースのボトルネックが解消されました。同時に、マネージドサービスを活用することでコスト管理が容易になりました。
- 設備導入リスクの低減:費用の試算、予算申請、購入手続き、設置、設定など、設備導入にかかる一連の作業がほとんど不要となり、研究者は半年ほど頭の片隅にある雑用から解放され、より研究へ集中できるようになりました。また、要件が変更になった場合に設備が遊休資産になるリスクも無くなりました。
- 自動的な実験データのバックアップと解析環境への転送を実現:従来は人の手でデータを運んでいたため、計測が完了した翌営業日に計測機器からデータを回収し、解析サーバーとバックアップデバイスのそれぞれに順を追って転送していました。今回の取り組みにより、計測完了から解析開始までの間に発生していた最大 1 週間ほどのラグが解消され、研究の時間効率が向上しました。
終わりに
このブログではライフサイエンス研究に HPC 環境を利用する JSR 様が、 AWS を活用することでリソース効率を高め運用を改善したソリューションを寄稿いただきました。活用前、 JSR 様はオンプレミスデータセンターでの HPC 環境運用に以下の課題をお持ちでした。
- 散発的な大規模計算によるボトルネック
- 増加し続けるデータの管理
- GPU 調達の困難さ
JSR 様は課題を解決するために AWS Parallel Cluster やAWS DataSyncを活用することで以下の効果を獲得しました。
- オンプレミスサーバー ( CPU 計算リソース) のダウンスケール化: CPU 33% 、ストレージ 85% を削減
- 自動でコスト管理が可能な CPU ・ GPU 計算リソースの確保: 1 年かかっていた調達が数分に
- 設備導入リスクの低減:半年先のリソース予測手続きが不要に
- 自動的な実験データのバックアップと解析環境への転送を実現:実験あたり 1 週間の時間短縮
今後、 JSR 様はライフサイエンス領域に加えてマテリアルズ・インフォマティクス領域での HPC 利用においても AWS の活用を推進するとともに、 AWS Batch や AWS HealthOmics などの活用も視野に研究ワークフロー全体の効率化に向けた取り組みを促進していく予定です。
JSR 株式会社について
![]() |
JSR 株式会社は「Materials Innovation ―マテリアルを通じて価値を創造し、人間社会 (人・社会・環境) に貢献します。―」という企業理念のもと、社会にとってかけがえのないマテリアルを通じて、社会に貢献し、社会の信頼に応える企業を目指しています。ライフサイエンス事業では、CDMO/CRO 事業といった創薬支援サービス、診断試薬材料、バイオプロセス材料などを提供しています。 |
執筆者について
![]() |
青戸 良賢JSR 株式会社 JSR・慶應義塾大学 医学化学イノベーションセンター (JKiC) 研究員。博士 (理学) 。専門は生命現象を情報科学から理解するバイオインフォマティクス。がんやマイクロバイオーム関連疾患といった疾患研究に加え、創薬プロセスに関わる技術開発を中心に研究活動を担っております。 |