HAQM Web Services ブログ

HAQM Bedrock Data Automation によるコンテキスト広告向けビデオインサイトの自動抽出

本記事は 2025 年 4 月 17 日に AWS Machine Learning Blog で公開された Automate video insights for contextual advertising using HAQM Bedrock Data Automation を翻訳したものです。翻訳はソリューションアーキテクトの川戸渉が担当しました。
ブログ翻訳時点 (2025 年 4 月) では、HAQM Bedrock Data Automation は英語をサポートしています。他の言語は未サポートです。

コンテキスト広告とは、デジタルコンテンツの内容に関連した広告を表示する戦略です。この手法によって視聴者が見ているコンテンツと関連性の高い広告を届けられるようになり、デジタルマーケティングに革新をもたらしています。しかし、ストリーミング型のビデオ・オン・デマンドコンテンツでは、このようなコンテキスト広告の実現が難しくなります。特にビデオのどのタイミングで広告を挿入するか、また視聴内容とどう関連付けるかという点で多くの課題があります。従来の方法では、コンテンツ分析は主に人手に頼っていました。たとえば、コンテンツ分析の担当者は恋愛ドラマを何時間も視聴し、感動的な告白シーンの直後でありながら結末の前という、視聴の流れを損なわない絶妙なタイミングに広告を配置します。その後、担当者はコンテンツに「ロマンス」「感動的」「家族向け」といったメタデータを手作業でタグ付けし、適切な広告とのマッチングを検証します。このような手作業によって、ストーリーの自然な流れを保ちながら番組内容に合った広告を表示できますが、大量のコンテンツに対してこの方法を実施するのは現実的ではありません。

生成 AI、特にマルチモーダル基盤モデル (foundation model, FM) の最近の進歩により、ビデオの内容を高度に理解できるようになりました。これらのモデルは、先ほど述べた課題に対する有望な解決策となっています。以前の記事 Media2Cloud on AWS Guidance: Scene and ad-break detection and contextual understanding for advertising using generative AI では、HAQM BedrockHAQM Titan Multimodal Embeddings G1 modelAnthropic Claude FM を使ったカスタムワークフローを紹介しました。今回の記事では、コンテキスト広告ソリューションをより簡単に構築する方法について解説します。

HAQM Bedrock Data Automation (BDA) は、HAQM Bedrock の FM を活用した新しいマネージド機能です。BDA は、ドキュメント、イメージ、ビデオ、オーディオなどの非構造化コンテンツから構造化されたデータを抽出することで、従来必要であった複雑なカスタムワークフローを簡略化できます。この記事では、BDA を活用して、チャプターセグメントやオーディオセグメントなどの豊富なビデオインサイトの自動抽出、シーン内のテキスト認識、Interactive Advertising Bureau (IAB) のカテゴリ分類の方法を示します。そして、これらのインサイトを使用して、ビデオを中断せずに表示される「ノンリニア広告」のソリューションを構築し、コンテキスト広告の効果を高める手法を紹介します。サンプルの Jupyter Notebook は、GitHub リポジトリで利用可能です。

ソリューションの概要

ノンリニア広告とは、再生を中断せずにメインのビデオコンテンツと同時に表示されるデジタルビデオ広告のことです。こうした広告は、ビデオプレーヤーの上にオーバーレイ、グラフィック、またはリッチメディア要素として表示され、多くの場合は画面の下部に表示されます。以下のスクリーンショットは、この記事で実装するノンリニア広告ソリューションの例です。

以下の図は、アーキテクチャとその主要コンポーネントの概要を示しています。

ワークフローは次の通りです:

  1. ユーザーが HAQM Simple Storage Service (HAQM S3) にビデオをアップロードします。
  2. 新しいビデオがアップロードされるたびに AWS Lambda 関数が起動し、ビデオ分析のために BDA が開始されます。ビデオ分析は非同期ジョブとして実行されます。
  3. 分析結果は出力用の S3 バケットに保存されます。
  4. ダウンストリームシステム (AWS Elemental MediaTailor) は、BDA が抽出したチャプターセグメンテーション、コンテキストインサイト、メタデータ(IAB 分類など)を活用して、ビデオ内でより効果的な広告の選択と配置が行えるようになります。

サンプルノートブックでは、実装を簡略化するために、ビデオのメタデータと表示する広告ファイルの対応表を用意しています。これは、MediaTailor がコンテンツマニフェストファイルを処理し、広告決定サービスから最適な広告を取得する仕組みを模擬したものです。

前提条件

この記事の例とノートブックを実行するには、以下の前提条件が必要です:

BDA を使用したビデオ分析

BDA の導入により、ビデオ処理と分析の作業が格段に簡単になりました。全体のワークフローは 3 つの主要ステップで構成されています。プロジェクトの作成、分析の実行、結果の取得です。最初のステップであるプロジェクトの作成では、繰り返し利用できる分析設定のテンプレートを作ります。このプロジェクト内で、どのような分析を行いたいか、また結果をどのように構造化するかを定義します。プロジェクトの作成には BDA boto3 クライアントの create_data_automation_project API を使用します。この API は dataAutomationProjectArn という識別子を返し、これを各ランタイム実行時に指定する必要があります。

{
    'projectArn': 'string',
    'projectStage': 'DEVELOPMENT'|'LIVE',
    'status': 'COMPLETED'|'IN_PROGRESS'|'FAILED'
}

プロジェクトが完了すると (ステータスが COMPLETED になったら) 、BDA ランタイムクライアントの invoke_data_automation_async API を使ってビデオ分析を開始できます。この API を利用する際には、入出力の S3 URI と、cross-Region profile ARN をリクエストに含める必要があります。BDA はすべてのファイル処理タスクで、クロスリージョン推論サポート を必要とします。これにより、対象の地域内で最も適した AWS リージョンが自動選択され、計算リソースとモデルの可用性が最適化されます。この機能は標準で提供され、追加コストなしでパフォーマンスと利用者体験を向上させることができます。また、ジョブの進行状況を追跡するために、HAQM EventBridge による通知を設定することも可能です (詳細は チュートリアル: HAQM EventBridge を使用してイベントが発生したときに E メールを送信する をご参照ください) 。分析を開始すると、処理はバックグラウンドで続行される一方、API はレスポンスとしてすぐにジョブ ID を返します。

default_profile_arn = "arn:aws:bedrock:{region}:{account_id}:data-automation-profile/us.data-automation-v1"

response = bda_runtime_client.invoke_data_automation_async(
    inputConfiguration={
        's3Uri': f's3://{data_bucket}/{s3_key}'
    },
    outputConfiguration={
        's3Uri': f's3://{data_bucket}/{output_prefix}'
    },
    dataAutomationConfiguration={
        'dataAutomationProjectArn': dataAutomationProjectArn,
        'stage': 'DEVELOPMENT'
    },
    notificationConfiguration={
        'eventBridgeConfiguration': {
            'eventBridgeEnabled': False
        }
    },
    dataAutomationProfileArn=default_profile_arn
)

ビデオ用の BDA 標準出力

ビデオ分析における BDA からの出力についてみていきましょう。これらの出力を理解することは、BDA がどのような種類のインサイトを提供するのか、そしてそれらをコンテキスト広告ソリューションの構築にどのように活用できるのかを把握するために重要です。以下の図は、ビデオの主要構成要素を示したものです。それぞれの要素がビデオコンテンツを分析するために必要な粒度レベルを定義しています。

主要構成要素は以下の通りです:

  • フレーム – 単一の静止画像。ビデオ内で連続して高速表示させることで、動いているように見える
  • ショット – カメラの撮影が開始してから停止するまでの一連の連続したフレームのつながり
  • チャプター – ビデオ内でいくつかのショットがまとまって、ひとつのストーリーや話題を形成する部分。BDA はまずビデオの特性を分析し、視覚重視型 (映画やエピソードコンテンツなど) か、音声重視型 (ニュースやプレゼンテーションなど) かに分類します。その分類結果に応じて、視覚ベースのショットの流れを使うか、音声ベースの会話トピックを使うかを判断し、チャプターの区切りを決定します
  • ビデオ – 分析対象となるビデオコンテンツ全体

ビデオの構成単位を説明しましたが、次は BDA が提供する分析機能についてみていきましょう。ビデオレベルでは、BDA はそのビデオの主要テーマと内容を簡潔にまとめた総合的な要約を生成します。また、話者識別機能も搭載されており、音声による手がかり (例:「私はジェーン・ドーです」といった自己紹介) や、可能な場合は画面に表示される視覚的な情報から、話者の名前を特定しようとします。この機能の実例として、短編映画「 Meridian 」に対して BDA が生成した全体の要約をみてみましょう:
[訳注]: ブログ翻訳時点 (2025 年 4 月) では、BDA は英語の入力コンテンツを解析し、英語で出力する仕様となっています。以下の要約例は、実際には英語で表示されるものを日本語に翻訳してご紹介しています。

エル・マタドール・ビーチの上の道路沿いで発生した一連の謎の失踪事件。一見無関係な 3 人の男性が痕跡もなく姿を消しました。被害者たちは学校教師、保険セールスマン、退職者と職業も異なり、離婚経験があること以外に共通点はほとんどありませんでした。犯罪歴も犯罪組織との関わりもありませんでした…サリバン刑事は、遺体が発見されていないことから自殺説を否定し、捜査を開始します。捜査の転機となったのは、最後の失踪事件当日に崖の上を犬と散歩していた目撃者の証言でした。その人物によると、海に突き出した巨大な岩の上に立つ男性の姿が見えたそうです。その男性は何かを、あるいは誰かを探しているように見えたその時、突如として前例のない激しい嵐が雷とともに地域を襲いました…捜査は更なる展開を見せます。ロサンゼルス市警察のフォスター警部がエル・マタドールの現場に到着すると、サリバン刑事も行方不明になっていることが判明。失踪事件、謎の女性、そして異常気象の関連性は依然として解明されず、事件はますます複雑な様相を呈していきます。

BDA は、ビデオの要約に加えて、話者を識別した音声文字起こしも作成します。この文字起こしでは、ビデオ内の会話内容とともに、誰が話しているのかも記録されています。以下は、短編映画「Meridian」から BDA が生成した文字起こしの例です:
[訳注]: 以下の文字起こしは、実際には英語で表示されるものを日本語に翻訳してご紹介しています。

[spk_0]: つまり、あの連中はただ忽然と姿を消したってわけか。
[spk_1]: ああ、エル・マタドールの真上を通るあの道路沿いでね。知ってるだろ?あの大きな岩がある場所さ。そうそう、そこだよ。
[spk_2]: あのな、ミッキー・コーエンは昔、仲間たちをあそこまで連れて行って「さよなら」してたんだぜ。

チャプターレベルの分析

BDA はビデオ内の各チャプターを詳細に分析し、要約を生成します。この要約には、チャプターの開始時間と終了時間が正確に記録されています。また、内容に応じて BDA はチャプターを IAB カテゴリに分類します。この IAB カテゴリは、ウェブ上のコンテンツを整理・分類するための業界標準で、広告のターゲティングやインターネットセキュリティ、コンテンツのフィルタリングなど、様々な用途に活用されています。以下に、チャプター分析の具体例を示します:
[訳注]: 以下のチャプターレベルの分析結果は、実際には英語で表示されるものを日本語に翻訳してご紹介しています。

[00:00:20;04 – 00:00:23;01] 自動車、自動車タイプ
ビデオは20世紀中頃の古風な都市の街並みを映し出しています。映像の中心には「フロレンティーン ガーデンズ」と「グルーエン タイム」と表示された目立つ看板を掲げたフロレンティーン・ガーデンズという装飾豊かな建物があります。建物の正面は柱やアーチ型の窓などの装飾的な要素で彩られ、風格ある外観を醸し出しています。建物の前の歩道にはヤシの木が並び、南国の雰囲気を添えています。黄色いタクシーや黒いセダンなどのビンテージカーが路上に駐車しており、歩道には歩行者の姿も見られ、通りに活気を添えています。この映像は当時の賑わう都市の雰囲気を見事に捉えています。

サポートする IAB 分類カテゴリの詳細な一覧については、Videos を参照してください。

また、チャプターレベルでは、BDA は各発言の正確な時間情報を含む詳細な音声の文字起こしも作成します。このような詳細な時間情報付きの文字起こしは、特にクローズドキャプションや通常の字幕作成に役立ちます。以下はチャプターレベルの文字起こしの例です:
[訳注]: 以下の文字起こしは、実際には英語で表示されるものを日本語に翻訳してご紹介しています。

[26.85 – 29.59] つまり、あの連中はただ忽然と姿を消したってわけか。
[30.93 – 34.27] ああ、エル・マタドールの真上を通るあの道路沿いでね。
[35.099 – 35.959] 知ってるだろ?
[36.49 – 39.029] あの大きな岩がある場所さ。そうそう、そこだよ。
[40.189 – 44.86] あのな、ミッキー・コーエンは昔、仲間たちをあそこまで連れて行って「さよなら」してたんだぜ。

ショットおよびフレームレベルのインサイト

より詳細なレベルでは、BDA はビデオ内の各ショットの切り替わりをフレーム単位で正確に検出し、その時間情報を記録します。また、個々のフレームに映っているテキストやロゴも自動的に検出します。検出されたテキストやロゴの周囲には 境界ボックス (検出範囲を示す枠) が表示され、それぞれの検出結果には信頼度スコアも付けられます。下の画像は、Meridian の映像から抽出されたテキストの境界ボックスの例です。

コンテキスト広告ソリューション

BDA から得られた分析結果を活用して、ノンリニア広告ソリューションを構築してみましょう。従来のリニア広告は事前に決められた時間枠に広告を表示しますが、ノンリニア広告はコンテンツの文脈に基づいて動的に広告を配置できます。チャプターレベルでは、BDA がビデオを自動的に分割し、コンテンツの要約、IAB カテゴリ、正確な時間情報といった詳細な分析データを生成します。これらのデータは広告配置のための効果的な指標となり、広告主は自社の宣伝内容に合致する特定のチャプターをターゲットにできます。

実例として、様々な広告画像を用意し、それぞれを特定の IAB カテゴリに関連付けました。BDA がチャプターの IAB カテゴリを特定すると、システムは自動的にリストから最も関連性の高い広告を選び出し、そのチャプターの再生中に画面上に重ねて表示します。下の例では、BDA が田舎道を走る車のシーン (IAB カテゴリ: 自動車、旅行) を識別すると、システムは事前に関連付けられた広告データベースから空港のスーツケースの広告を選択して表示します。この自動マッチングの仕組みにより、視聴の流れを妨げずに、コンテンツに関連した適切な広告配置が可能になります。

クリーンアップ

不要な課金を防ぐため、ノートブックのクリーンアップセクションの手順に従って、作成したプロジェクトとリソースを削除してください。BDA のコストに関する詳細については、HAQM Bedrock の料金を参照してください。

まとめ

HAQM Bedrock の基盤モデルを活用した HAQM Bedrock Data Automation は、ビデオ分析技術を大きく改善しています。BDA は、ビデオコンテンツの深い分析に必要だった複雑な処理工程を大幅に簡素化しました。これにより、従来は専門的な技術知識が必要だった作業が、誰でも扱える使いやすいソリューションへと生まれ変わりました。この画期的な技術により、メディア企業は運用の手間を減らしながら、視聴者一人ひとりの興味に合わせた、より魅力的な広告を届けられるようになります。GitHub リポジトリで公開されているサンプルの Jupyter Notebook を使って、ぜひ BDA を実際にお試しください。また、以下のリソースでは、テキストや画像など他の形式での BDA の活用事例もご覧いただけます:


著者について

James Wu は AWS のシニア AI/ML スペシャリストソリューションアーキテクトとして、お客様の AI/ML ソリューション設計・構築をサポートしています。James は幅広い機械学習の活用事例に携わっており、特にコンピュータービジョン、ディープラーニング、企業全体での機械学習のスケーリングに力を入れています。 AWS 入社以前は、エンジニアリング分野で 6 年間、マーケティングと広告業界で 4 年間を含む 10 年以上の経験を持ち、アーキテクト、開発者、テクノロジーリーダーとしてのキャリアを積んできました。

Alex Burkleaux は AWS のシニア AI/ML スペシャリストソリューションアーキテクトを務めています。彼女は AI サービスを活用して生成 AI によるメディアソリューションの構築するお客様をサポートしています。彼女の業界経験には、オーバーザトップビデオ、データベース管理システム、信頼性エンジニアリングが含まれています。