HAQM Web Services ブログ

【開催報告】AWS Resilience Day in Osaka を開催しました!!(2025年3月17日)

AWS Architectural Resilience Day は、AWS のお客様がワークロードの回復力の向上に役立つアーキテクチャのベストプラクティス、AWS サービスについて学べる無料の対面でのイベントです。レジリエンスについて学ぶ座学と、ハンズオンを含む実践的なワークショップに参加して、 災害復旧、高可用性ワークロードの設計、エラー修正プロセスの実装について学んで頂けます。重要なアプリケーションの回復力を IT 運用のライフサイクルの中で継続的に改善したいと考えておられる開発者様、運用者様に特に役に立つ内容となっております。 また、AWS Resilience HubAWS Fault Injection Service のハンズオンを通してアプリケーションの回復力の評価、改善の自動化も体験頂けます。

2024年10月には東京で開催(開催報告はこちら)させて頂き、今回大阪での初開催となりました。
まだ寒さの残る早朝より、52名のお客様に中之島オフィスにお越し頂きました。関西からの参加だけでなく、九州からご参加頂いた方も!たくさんの方に参加頂き誠にありがとうございました!!

アジェンダ

このセミナーでは、座学とハンズオンを交互に織り交ぜながら進めていきます。

形式 タイトル スピーカー 資料
オープニング 三好 史隆※1
座学 AWSにおけるレジリエンス入門 猪又 赳彦※4 Download
座学 レジリエンスの目標を設定する 猪又 赳彦 Download
👋 ハンズオン AWS Resilience Hubを活用したRPO/RTOの設定 三好 史隆
座学 レジリエンスの設計と実装 新谷 歩生※2 Download
👋 ハンズオン 高可用性のための設計と実装 三好 史隆
👋 ハンズオン ディザスタリカバリに備えた設計と実装 三木 康次※3
座学 レジリエンスの評価とテスト 安藤 麻衣※1 Download
座学 レジリエンスの運用 長倉 隆浩※5 Download
👋 ハンズオン AWS Fault Injection Serviceを用いたレジリエンス評価とテスト 三木 康次
座学 インシデントへの対応と学習 森 啓※2 Download
👋 ハンズオン インシデント対応からの学習 三木 康次

※1. Solutions Architect, ※2. Sr. Solutions Architect, ※3. Technical Account Manager, ※4. Sr. Technical Account Manager, ※5. Customer Solutions Manager

オープニング

本セミナーは、AWS レジリエンスライフサイクルフレームワークの 5 つの主要なステージに沿って進められます。みなさまにレジリエンスの向上に役立つさまざまな戦略、サービス、ツールについての学びを持ち帰って頂きたいという思いを総合司会の三好よりお伝えしました。

三好 史隆
Solutions Architect

AWSにおけるレジリエンス入門

AWS のシステムレジリエンスにおいて、システム障害は避けられない前提で対策を講じることが重要です。このセッションでは、レジリエンスを確保するための取り組みとして、テクノロジーだけでなく、人・プロセスの重要性、さらに AWS の責任共有モデルに基づいて、AWS によるクラウドのレジリエンスを確保するための取り組みと、継続的なレジリエンス活動の重要性を説く AWS レジリエンスライフサイクルフレームワークを紹介しました。

 

   

猪又 赳彦
Sr. Technical Account Manager

レジリエンスの目標を設定する

前のセッションから引き続き、猪又よりシステム障害による経済的影響の大きさを改めて共有したうえで、ビジネス目標を設定し、必要なレジリエンスのレベルの定義の必要性について紹介しました。目標設定では、RPO と RTO を指標として使用しますが、システム全体で一律の目標を設定するのではなく、コンポーネントごとに重要度を考慮した現実的な目標設定が推奨されます。これらの目標設定と評価を支援するサービスとして AWS Resilience Hub の活用をご紹介しています。レジリエンスのレベルを定義するには、ビジネス目標の明確化と、それに対する経営陣の理解と関与を得ながら、継続的な改善を進めることが重要であることをお伝えしました。

👋 AWS Resilience Hubを活用したRPO/RTOの設定

ハンズオンの開始です。このセクションでは、AWS 上のアプリケーションの回復力を分析、管理、改善できるサービス AWS Resilience Hub を使って、レジリエンシーポリシーへの準拠状況を確認します。AWS Resilience Hub へアプリケーションの目標 RTO / RPO を入力して準拠状況を確認します。下の図では、現状はレジリエンシーを満たしていないことが確認できます。

AWS Resilience Hub – 目標 RTO / RPO に対する評価結果の出力

レジリエンスの設計と実装

このセッションでは、回復力のあるデザインパターンについて、例と共にご紹介しました。レジリエンスに関してはトレードオフが存在することをお伝えした上で、設計をする上で考慮すべき点として、リソース管理を担うコントロールプレーンと実行処理を担うデータプレーンの理解、変更なしで安定稼働を維持する静的安定性、そして AZ やリージョンでの障害分離境界の考え方、セルアーキテクチャ、グレースフルデグラデーション、バイモーダル動作などを例にデザインパターンのベストプラクティスをご紹介しました。

新谷 歩生
Sr. Solutions Architect

👋 高可用性のための設計と実装

再びハンズオンです。このセクションでは、AWS Resilience Hub を使って、レコメンデーションを適用した後に再評価を実行して、レジリエンシーポリシーを満たしているかを確認します。AWS Resilience Hub が推奨する改善案に沿ってアプリケーションを修正した結果、目標 RTO / RPO に準拠していることが確認できました。

AWS Resilience Hub – レジリエンシーの評価結果 (改善後)

👋 ディザスタリカバリに備えた設計と実装

午後最初のセッションは三木へリードをバトンタッチして、ハンズオンからスタートです。リージョン障害に対する復元力目標が達成できていないことを確認して、評価の理由を確認したうえでアプリケーションを修正し再評価して、復元力目標を達成していることを確認します。

AWS Resilience Hub – リージョン障害に対するレジリエンシーの評価結果 (改善前)

AWS Resilience Hub – リージョン障害に対するレジリエンシーの評価結果 (改善後)

三木 康次
Technical Account Manager

レジリエンスの評価とテスト

このセッションではレジリエンスの評価とテストとして、予期せぬシステム障害への対応力を高めるための手法としてのカオスエンジニアリングと、実施するためのプロセスについてご紹介しました。また、実環境での障害実験を実施するためのサービスとして、AWS Fault Injection Service の活用を具体例とともに示し、予期せぬシステム障害、潜在的な問題を発見するためのアプローチとその重要性についてご紹介しました。

安藤 麻衣
Solutions Architect

レジリエンスの運用

このセッションでは、レジリエントなシステムを維持していくための運用の重要性についてご紹介しました。システムの健全性を担保するためにはメトリクスの監視が不可欠ですが、過剰なデータ収集は障害検知・回復の遅延をまねき、RPO / RTO の目標達成にも影響してしまいます。メトリクスの監視においては、システムのステータスだけでなく、ユーザー体験への影響を測定することが重要です。これらを踏まえ、ビジネス目標に基づいて適切なメトリクスを特定し、監視を実施することの重要性をお伝えしました。

長倉隆浩
Customer Solutions Manager

👋 AWS Fault Injection Serviceを用いたレジリエンス評価とテスト

AWS Resilience Hub はレジリエンシーの目標 RTO / RPO を満たすアーキテクチャを提案するだけでなく、障害注入実験を行うための AWS CloudFormation テンプレートも提供します。これには AWS Resilience Hub の一機能である AWS Fault Injection Service (FIS) が利用されます。ハンズオンでは、FISを用いてHAQM Relational Database Service (HAQM RDS)をフェイルオーバーさせ、その際にアプリケーションが目標RTOを満たしているかをテストしました。

AWS Resilience Hub – 障害注入実験のテンプレート

AWS CloudWatch Dashboard – バックエンドの応答状況

インシデントへの対応と学習

最後の座学セッションとなるインシデントへの対応と学習では、インシデント検知時の分析の重要性と、インシデント発生後の分析と学びを共有することの重要性について学びました。システム問題の検知においては、単一指標だけでなく複数の観点からの分析の重要性、CloudWatch Contributor Insights の活用をご紹介しました。またインシデント発生後は、技術的観点だけでなく人とプロセスも含めた障害原因の分析を行い、得られた学びについて組織内で共有し、そしてこれらの取り組みのサイクルを継続して実践することの重要性をお伝えしました。

森 啓
Sr. Solutions Architect

インシデント対応からの学習

最後のセッションでは、AWS Resilience Hub でアプリケーションの全体的なレジリエンススコアを確認しました。レジリエンススコアは、アプリケーションのレジリエンスポリシーを満たし、アラーム、標準運用手順(SOP)、障害注入実験を実装するための推奨事項にどれだけ近いかを反映しています。このスコアの内訳を確認し、継続的に評価・改善する方法を学びました。

AWS Resilience Hub – 耐障害性スコア

おわりに

今回は大阪での初開催となる AWS Resilience Day in Osaka についてレポートしました。レジリエンスライフサイクルフレームワークに基づいて学ぶ座学と、ハンズオンを通して、レジリエントなシステムを構築する重要性とアーキテクチャのベストプラクティスについて理解を深めて頂いたかと思います。
ご参加頂いたみなさま、本当にありがとうございました。頂いたフィードバックをもとにこれからも改善を重ねて参ります。本日の内容が少しでも皆様の業務のお役に立てば幸いです。
2025年4月17日には、東京で2回目の開催となる AWS Resilience Day in Tokyo も予定されていますので、ご興味ある方は担当営業にご相談ください。

 

著者
カスタマーソリューションマネジメント統括本部
カスタマーソリューションマネジャー 長倉隆浩