HAQM Web Services 한국 블로그
HAQM Bedrock, Pixtral Large 25.02 모델 출시
오늘 부터 Pixtral Large 25.02 모델을 이제 HAQM Bedrock에서 완전 관리형 서버리스로 사용할 수 있습니다. AWS는 Pixtral Large를 완전 관리형 서버리스 모델로 제공한 최초의 주요 클라우드 공급업체입니다.
대규모 파운데이션 모델(FM)을 사용하려면 컴퓨팅 요구 사항을 효과적으로 처리하기 위해 상당한 인프라 계획, 전문 지식 및 지속적인 최적화가 필요한 경우가 많습니다. 많은 고객은 복잡한 환경을 관리하거나 이러한 정교한 모델을 구축할 때 성능과 비용 간의 절충점을 찾게 됩니다.
Mistral AI에서 개발한 Pixtral Large 모델은 고급 시각 기능과 강력한 언어 이해 기능을 결합한 최초의 멀티모달 모델입니다. 128K 컨텍스트 창은 복잡한 시각적 추론 작업에 이상적입니다. 이 모델은 MathVista, DocVQA 및 VQAv2를 비롯한 주요 벤치마크에서 탁월한 성능을 제공하여 문서 분석, 차트 해석 및 자연스러운 이미지 이해 전반에서 그 효과를 보여줍니다.
Pixtral Large의 가장 강력한 특징 중 하나는 다국어 기능입니다. 이 모델은 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 중국어, 일본어, 한국어, 포르투갈어, 네덜란드어, 폴란드어 등 수십 개 언어를 지원하므로 글로벌 팀과 애플리케이션에서 사용할 수 있습니다. 또한 Python, Java, C, C++, JavaScript, Bash, Swift 및 Fortran을 포함한 80개 이상의 프로그래밍 언어에 대해 트레이닝되어 강력한 코드 생성 및 해석 기능을 제공합니다.
개발자는 내장 함수 호출 및 기존 시스템과의 통합을 간소화하는 JSON 출력 형식을 갖춘 모델의 에이전트 중심 설계를 높이 평가할 것입니다. 강력한 시스템 프롬프트 준수는 검색 증강 생성(RAG) 응용 프로그램 및 대규모 컨텍스트 시나리오에서 작업할 때 안정성을 향상합니다.
HAQM Bedrock의 Pixtral Large를 사용하면 이제 인프라를 프로비저닝하거나 관리할 필요 없이 이 고급 모델에 액세스할 수 있습니다. 서버리스 접근 방식을 사용하면 사전 약정이나 용량 계획 없이 실제 수요에 따라 사용량을 확장할 수 있습니다. 유휴 리소스 없이 사용한 만큼만 비용을 지불하면 됩니다.
교차 리전 추론
이제 교차 리전 추론을 통해 여러 AWS 리전에 걸친 HAQM Bedrock에서 Pixtral Large를 사용할 수 있습니다.
HAQM Bedrock 교차 리전 추론을 사용하면 글로벌 애플리케이션의 고가용성과 짧은 지연 시간을 유지하면서 여러 지리적 리전에서 단일 FM에 액세스할 수 있습니다. 예를 들어 유럽 및 미국 리전 모두에 모델을 배포하는 경우 고유한 접두사 (유럽 리전의 경우 eu.model-id
, 미국 리전의 경우 us.model-id
)를 사용하여 리전별 API 엔드포인트를 통해 모델에 액세스할 수 있습니다. 이 접근 방식을 통해 HAQM Bedrock은 추론 요청을 지리적으로 가장 가까운 엔드포인트로 라우팅하여 지연 시간을 줄이는 동시에 데이터 처리를 원하는 지리적 경계 내에서 유지하여 규정 준수를 충족할 수 있습니다. 시스템은 이러한 리전 배포 전반에서 트래픽 라우팅과 로드 밸런싱을 자동으로 처리하므로 모델이 실제로 배포된 개별 리전을 추적할 필요 없이 원활한 확장성과 중복성을 제공합니다.
실제 작동 모습 살펴보기
개발자 옹호자로서 저는 우리의 최신 기능이 현실의 문제를 어떻게 해결할 수 있는지 끊임없이 탐구하고 있습니다. 최근에 딸이 물리 시험 준비를 도와달라고 했을 때 HAQM Bedrock Converse API의 새로운 멀티모달 기능을 테스트할 절호의 기회였습니다.
지난 주말, 우리 집 식탁은 복잡한 도표, 힘 벡터, 방정식으로 가득한 연습 시험으로 뒤덮였습니다. 제 딸은 이러한 문제에 접근하는 방법을 구상하는 데 어려움을 겪고 있었죠. 그때, 이것이 우리가 얼마 전 출시한 멀티모달 기능을 위한 완벽한 사용 사례라는 것을 깨달았습니다. 저는 여러 그래프와 수학 기호가 포함된 특히 난이도가 높은 문제지의 사진을 찍은 다음 Converse API를 사용하여 이미지를 분석할 수 있는 간단한 애플리케이션을 만들었습니다. 함께 물리 시험 자료를 업로드하고 모델에 해결 방법에 대한 접근을 설명하도록 요청했습니다.
결과를 본 저와 딸은 크게 놀랐는데, 모델은 다이어그램을 해석하고 프랑스어와 수학 표기법을 인식하며 각 문제를 해결하는 방법을 단계별로 설명해 주었습니다. 특정 개념에 대한 후속 질문을 했을 때, 모델은 전체 대화에서 컨텍스트를 유지하여 놀라울 정도로 자연스러운 개인 교습 같은 경험을 제공했습니다.
# Effet Doppler avec une Source Sonore en Rotation
## Analyse du problème
Ce problème concerne l'effet Doppler produit par une source sonore en rotation. Une source émettant un son à 1500 Hz tourne sur une table tournante dans le sens antihoraire, et nous devons déterminer comment les fréquences sont perçues par un microphone fixe.
## Concepts clés
L'effet Doppler se produit lorsqu'il y a un mouvement relatif entre une source sonore et un observateur. La fréquence perçue dépend de si la source se rapproche ou s'éloigne de l'observateur.
La formule de l'effet Doppler est:
- Pour une source qui se rapproche: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} - v_{source}}$
- Pour une source qui s'éloigne: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} + v_{source}}$
## Solution étape par étape
### Étape 1: Analyser le mouvement de la source
La source tourne sur un cercle et le microphone est fixe à 40 cm du centre de rotation. Aux différentes positions (a, b, c), la source a des vitesses radiales différentes par rapport au microphone:
- Position a: La source se déplace perpendiculairement à la ligne source-microphone (vitesse radiale nulle)
- Position b: La source s'éloigne du microphone (vitesse radiale positive)
- Position c: La source se rapproche du microphone (vitesse radiale négative)
### Étape 2: Déterminer l'effet sur les fréquences perçues
- À la position a: Pas d'effet Doppler car la vitesse radiale est nulle, donc $f_a = f_{source} = 1500$ Hz
- À la position b: La source s'éloigne, donc $f_b < f_{source}$, donc $f_b < 1500$ Hz
- À la position c: La source se rapproche, donc $f_c > f_{source}$, donc $f_c > 1500$ Hz
### Étape 3: Comparer les fréquences
D'après notre analyse:
- $f_a = 1500$ Hz
- $f_b < 1500$ Hz
- $f_c > 1500$ Hz
Donc: $f_c > f_a > f_b$
## Conclusion
La proposition correcte est: $f_c > f_a > f_b$
Cette réponse correspond à la troisième proposition dans l'énoncé. Lorsque la source tourne, la fréquence perçue est plus élevée quand la source se rapproche (position c), égale à la fréquence émise quand la source se déplace perpendiculairement (position a), et plus basse quand la source s'éloigne (position b).
모델은 질문의 언어를 사용하여 응답하며, 신중한 분석 후 정답이 f_c > f_a > f_b라고 표시합니다(정답이 맞음).
이 상호 작용에서 멋진 점은 Converse API가 멀티모달 입력을 매끄럽게 처리하는 능력이었습니다. 빌더로서 저는 이미지를 텍스트와 함께 처리하는 복잡한 작업에 대해 걱정할 필요가 없었습니다. API는 복잡성을 관리하고 간단한 애플리케이션으로 딸에게 직접 제시할 수 있는 구조화된 응답을 반환했습니다.
제가 작성한 코드는 다음과 같습니다. 저는 Python이 유일한 옵션이 아니라는 것을 보여드리기 위해 Swift 프로그래밍 언어를 사용했습니다. 😇
private let modelId = "us.mistral.pixtral-large-2502-v1:0"
// Define the system prompt that instructs Claude how to respond
let systemPrompt = """
너는 수학 및 물리 교사야. 해야 할 작업은 다음과 같아.
1. 이미지의 수학 또는 물리 문제를 읽고 이해
2. 문제에 대한 명확한 단계별 해결 방법 제공
3. 문제 해결에 사용된 관련 개념을 간략하게 설명
4. 세세하고 정확하게 계산
5. 적절한 경우 수학 기호 사용
명확한 섹션 제목과 번호가 매겨진 단계로 응답의 형식을 지정.
"""
let system: BedrockRuntimeClientTypes.SystemContentBlock = .text(systemPrompt)
// Create the user message with text prompt and image
let userPrompt = “이 수학 또는 물리 문제를 풀어 줘. 모든 단계를 보여주고 관련 개념을 설명해 줘.”
let prompt: BedrockRuntimeClientTypes.ContentBlock = .text(userPrompt)
let image: BedrockRuntimeClientTypes.ContentBlock = .image(.init(format: .jpeg, source: .bytes(finalImageData)))
// Create the user message with both text and image content
let userMessage = BedrockRuntimeClientTypes.Message(
content: [prompt, image],
role: .user
)
// Initialize the messages array with the user message
var messages: [BedrockRuntimeClientTypes.Message] = []
messages.append(userMessage)
// Configure the inference parameters
let inferenceConfig: BedrockRuntimeClientTypes.InferenceConfiguration = .init(maxTokens: 4096, temperature: 0.0)
// Create the input for the Converse API with streaming
let input = ConverseStreamInput(inferenceConfig: inferenceConfig, messages: messages, modelId: modelId, system: [system])
// Make the streaming request
do {
// Process the stream
let response = try await bedrockClient.converseStream(input: input)
// Iterate through the stream events
for try await event in stream {
switch event {
case .messagestart:
print("AI-assistant started to stream")
case let .contentblockdelta(deltaEvent):
// Handle text content as it arrives
if case let .text(text) = deltaEvent.delta {
DispatchQueue.main.async {
self.streamedResponse += text
}
}
case .messagestop:
print("Stream ended")
// Create a complete assistant message from the streamed response
let assistantMessage = BedrockRuntimeClientTypes.Message(
content: [.text(self.streamedResponse)],
role: .assistant
)
messages.append(assistantMessage)
default:
break
}
}
그리고 앱에서 나오는 결과는 놀랍습니다.
시험이 시작될 때쯤 딸은 자신 있고 시험에 준비되었다고 느꼈으며, 저는 HAQM Bedrock의 멀티모달 기능이 사용자에게 의미 있는 경험을 제공할 수 있는 방법을 보여주는 설득력 있는 실제 사례를 알게 되었습니다.
지금 시작하기
새 모델은 미국 동부(오하이오, 버지니아 북부), 미국 서부(오리건), 유럽(프랑크푸르트, 아일랜드, 파리, 스톡홀름)과 같은 리전 API 엔드포인트를 통해 사용할 수 있습니다. 이러한 리전별 가용성은 지연 시간을 최소화하면서 데이터 레지던시 요구 사항을 충족하는 데 도움이 됩니다.
모델 ID mistral.pixtral-large-2502-v1:0
을 사용하여 AWS Management Console을 통해 또는 AWS Command Line Interface(AWS CLI) 및 AWS SDK를 통해 프로그래밍 방식으로 모델을 사용할 수 있습니다.
이번 출시는 모든 규모의 개발자와 조직이 고급 멀티모달 AI에 액세스할 수 있도록 하는 데 중요한 진전입니다. Mistral AI의 최첨단 모델을 AWS 서버리스 인프라와 결합함으로써 이제 근본적인 복잡성에 대한 걱정 없이 혁신적인 애플리케이션을 구축하는 데 집중할 수 있습니다.
지금 HAQM Bedrock 콘솔을 방문하여 Pixtral Large 25.02로 실험해 보고 AI 기반 애플리케이션을 어떻게 개선할 수 있는지 알아보세요.
뉴스 블로그의 상황은 어떤가요? 이 1분짜리 설문조사에 참여해 주세요!
(이 설문조사는 외부 기업에서 호스트합니다. AWS는 AWS 개인정보 처리방침에 설명한 대로 사용자 정보를 처리합니다. AWS는 이 설문 조사를 통해 수집된 데이터를 소유하며 수집된 정보를 설문 응답자와 공유하지 않습니다)