Wir stellen vor: HAQM Nova: Grenzüberschreitende Intelligenz und branchenführendes Preis-Leistungs-Verhältnis

von Danilo Poccia übersetzt durch David Surey

Wir freuen uns, heute HAQM Nova, eine neue Generation hochmoderner Foundation Models (FMs), die führende Intelligenz und ein branchenführendes Preis-Leistungs-Verhältnis bieten und exklusiv auf HAQM Bedrock verfügbar sind.

Sie können HAQM Nova nutzen, um Kosten und Latenzzeiten für nahezu jede generative KI-Aufgabe zu reduzieren.

Sie können auf HAQM Nova aufbauen, um komplexe Dokumente und Videos zu analysieren, Diagramme und Grafiken zu verstehen, ansprechende Videoinhalte zu generieren und anspruchsvolle KI-Agenten aus einer Reihe von Intelligenzklassen zu erstellen, die für Unternehmens-Workloads optimiert sind.

Ganz gleich, ob Sie Dokumentenverarbeitungsanwendungen entwickeln, die Bilder und Text verarbeiten müssen, Marketing-Inhalte in großem Umfang erstellen oder KI-Agenten bauen, die visuelle Informationen verstehen und darauf reagieren können – HAQM Nova bietet die Intelligenz und Flexibilität, die Sie benötigen: Verstehen und kreative Inhaltsgenerierung.

HAQM Nova Verständnismodelle akzeptieren Text-, Bild- oder Videoeingaben, um Textausgaben zu generieren. HAQM-Modelle zur Generierung kreativer Inhalte akzeptieren Text- und Bildeingaben, um Bild- oder Videoausgaben zu generieren.

Verständnismodelle: Text- und visuelle Intelligenz

Die HAQM Nova Modelle umfassen drei Verständnismodelle (ein viertes kommt bald hinzu), die für verschiedene Bedürfnisse konzipiert sind:

HAQM Nova Micro – Ein reines Textmodell, das die niedrigsten Latenzzeiten in der HAQM Nova Modellfamilie zu sehr geringen Kosten liefert. Mit einer Kontextlänge von 128K Tokens und optimiert für Geschwindigkeit und Kosten, eignet sich HAQM Nova Micro hervorragend für Aufgaben wie Textzusammenfassung, Übersetzung, Inhaltsklassifizierung, interaktiven Chat und Brainstorming sowie einfaches mathematisches Schlussfolgern und Codieren. HAQM Nova Micro unterstützt auch die Anpassung an proprietäre Daten durch Fine-Tuning und Modell-Destillation zur Verbesserung der Genauigkeit.

HAQM Nova Lite – Ein sehr kostengünstiges multimodales Modell, das blitzschnell Bild-, Video- und Texteingaben verarbeitet, um Textausgaben zu generieren. HAQM Nova Lite kann Echtzeit-Kundeninteraktionen, Dokumentenanalysen und visuelle Frage-Antwort-Aufgaben mit hoher Genauigkeit bewältigen. Das Modell verarbeitet Eingaben mit einer Länge von bis zu 300K Tokens und kann mehrere Bilder oder bis zu 30 Minuten Video in einer einzigen Anfrage analysieren. HAQM Nova Lite unterstützt auch Text- und multimodales Fine-Tuning und kann mit Techniken wie der Modell-Destillation optimiert werden, um die beste Qualität und Kosten für Ihren Anwendungsfall zu liefern.

HAQM Nova Pro – Ein hochleistungsfähiges multimodales Modell mit der besten Kombination aus Genauigkeit, Geschwindigkeit und Kosten für ein breites Spektrum von Aufgaben. HAQM Nova Pro kann bis zu 300K Eingabe-Tokens verarbeiten und setzt neue Maßstäbe in multimodaler Intelligenz und agentischen Workflows, die APIs und Tools aufrufen müssen, um komplexe Workflows abzuschließen. Es erreicht Spitzenleistungen bei wichtigen Benchmarks, einschließlich visueller Fragenbeantwortung (TextVQA[EN, EXTERN]) und Videoverständnis (VATEX[EN, EXTERN]). HAQM Nova Pro zeigt starke Fähigkeiten bei der Verarbeitung sowohl visueller als auch textueller Informationen und zeichnet sich bei der Analyse von Finanzdokumenten aus. Mit einem Eingabekontext von 300K Tokens kann es Codebasen mit über fünfzehntausend Codezeilen verarbeiten. HAQM Nova Pro dient auch als Lehrermodell zur Destillation benutzerdefinierter Varianten von HAQM Nova Micro und Lite.

HAQM Nova Premier – Unser leistungsfähigstes multimodales Modell für komplexe Reasoning-Aufgaben und als bester Lehrer für die Destillation benutzerdefinierter Modelle. HAQM Nova Premier befindet sich noch in der Trainingsphase. Wir streben eine Verfügbarkeit Anfang 2025 an.

Die HAQM Nova Modelle zeichnen sich in Retrieval-Augmented Generation (RAG), Funktionsaufrufen und agentischen Anwendungen aus. Dies spiegelt sich in den Bewertungen der HAQM Nova Modelle in der Comprehensive RAG Benchmark (CRAG) Evaluation, der Berkeley Function Calling Leaderboard (BFCL)[EN, EXTERN], VisualWebBench[EN, EXTERN] und Mind2Web[EN, EXTERN] wider.

Was HAQM Nova für Unternehmen besonders leistungsfähig macht, sind seine Anpassungsmöglichkeiten. Stellen Sie es sich wie einen maßgeschneiderten Anzug vor: Sie beginnen mit einer qualitativ hochwertigen Basis und passen diese genau an Ihre Bedürfnisse an. Sie können die Modelle mit Text, Bild und Video fein abstimmen, um die Terminologie Ihrer Branche zu verstehen, sie an Ihre Markensprache anzupassen und für Ihre spezifischen Anwendungsfälle zu optimieren. Eine Anwaltskanzlei könnte beispielsweise HAQM Nova anpassen, um juristische Terminologie und Dokumentstrukturen besser zu verstehen.

Die neuesten Benchmark-Ergebnisse für diese Modelle finden Sie auf der HAQM Nova Produktseite.

Kreative Inhaltsgenerierung: Konzepte zum Leben erwecken
Die HAQM Nova Modelle umfassen auch zwei Modelle zur kreativen Inhaltsgenerierung:

HAQM Nova Canvas – Ein hochmodernes Bildgenerierungsmodell, das Studioqualitätsbilder mit präziser Kontrolle über Stil und Inhalt produziert, einschließlich umfangreicher Bearbeitungsfunktionen wie Inpainting, Outpainting und Hintergrundentfernung. HAQM Nova Canvas überzeugt bei menschlichen Bewertungen und wichtigen Benchmarks wie der Text-zu-Bild-Treuebewertung mit Fragenbeantwortung (TIFA)[EN, EXTERN] und ImageReward[EN, EXTERN].

HAQM Nova Reel – Ein hochmodernes Videogenerierungsmodell. Mit HAQM Nova Reel können Sie kurze Videos durch Textaufforderungen und Bilder erstellen, den visuellen Stil und das Tempo steuern und professionelle Videoinhalte für Marketing, Werbung und Unterhaltung generieren. HAQM Nova Reel übertrifft bestehende Modelle bei menschlichen Bewertungen der Videoqualität und -konsistenz.

Alle HAQM Nova Modelle verfügen über integrierte Sicherheitskontrollen, und HAQM-Modelle zur Generierung kreativer Inhalte beinhalten Wasserzeichenfunktionen zur Förderung einer verantwortungsvollen KI-Nutzung.

Lassen Sie uns sehen, wie diese Modelle in der Praxis für einige Anwendungsfälle funktionieren.

Verwendung von HAQM Nova Pro für Dokumentenanalyse

Um die Fähigkeiten der Dokumentenanalyse zu demonstrieren, habe ich den Entscheidungsleitfaden Auswahl eines generativen KI-Dienstes im PDF-Format aus der AWS-Dokumentation heruntergeladen.

Zunächst wähle ich Modellzugriff im Navigationsbereich der HAQM Bedrock-Konsole und beantrage Zugriff auf die neuen HAQM Nova-Modelle. Dann wähle ich Chat/Text im Abschnitt Playground des Navigationsbereichs und wähle das HAQM Nova Pro-Modell aus. Im Chat lade ich das PDF des Entscheidungsleitfadens hoch und frage:

Write a summary of this doc in 100 words. Then, build a decision tree.

Die Ausgabe folgt meinen Anweisungen und erstellt einen strukturierten Entscheidungsbaum, der mir einen Einblick in das Dokument gibt, bevor ich es lese.

Verwendung von HAQM Nova Pro für Videoanalyse
Um die Videoanalyse zu demonstrieren, habe ich ein Video vorbereitet, indem ich zwei kurze Clips zusammengefügt habe (mehr dazu im nächsten Abschnitt):

Diesmal verwende ich das AWS SDK für Python (Boto3), um das HAQM Nova Pro-Modell mit der HAQM Bedrock Converse API aufzurufen und das Video zu analysieren:

import boto3

AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-pro-v1:0"
VIDEO_FILE = "the-sea.mp4"

bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
with open(VIDEO_FILE, "rb") as f:
    video = f.read()

user_message = "Describe this video."

messages = [ { "role": "user", "content": [
    {"video": {"format": "mp4", "source": {"bytes": video}}},
    {"text": user_message}
] } ]

response = bedrock_runtime.converse(
    modelId=MODEL_ID,
    messages=messages,
    inferenceConfig={"temperature": 0.0}
 )

response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

HAQM Nova Pro kann Videos analysieren, die mit der API hochgeladen wurden (wie im vorherigen Code) oder die in einem HAQM Simple Storage Service (HAQM S3)-Bucket gespeichert sind.

Im Skript bitte ich darum, das Video zu beschreiben. Ich führe das Skript von der Kommandozeile aus. Hier ist das Ergebnis:

The video begins with a view of a rocky shore on the ocean, and then transitions to a close-up of a large seashell resting on a sandy beach.

Ich kann eine detailliertere Aufforderung verwenden, um spezifische Informationen aus dem Video zu extrahieren, wie Objekte oder Text. Beachten Sie, dass HAQM Nova derzeit keine Audioinhalte in einem Video verarbeitet.

Verwendung von HAQM Nova für Videoerstellung
Jetzt erstellen wir ein Video mit HAQM Nova Reel, beginnend mit einer reinen Textaufforderung und dann mit einem Referenzbild.

Da die Generierung eines Videos einige Minuten dauert, hat die HAQM Bedrock API drei neue Operationen eingeführt:

StartAsyncInvoke – Um eine asynchrone Aufrufung zu starten

GetAsyncInvoke – Um den aktuellen Status einer bestimmten asynchronen Aufrufung abzurufen

ListAsyncInvokes – Um den Status aller asynchronen Aufrufungen mit optionalen Filtern wie Status oder Datum aufzulisten

HAQM Nova Reel unterstützt Kamerasteuerungsaktionen wie Zoomen oder Bewegen der Kamera. Dieses Python-Skript erstellt ein Video aus dieser Textaufforderung:

Closeup of a large seashell in the sand. Gentle waves flow all around the shell. Sunset light. Camera zoom in very close.

Nach dem ersten Aufruf überprüft das Skript regelmäßig den Status, bis die Erstellung des Videos abgeschlossen ist. Ich übergebe einen zufälligen Seed, um bei jedem Ausführen des Codes ein anderes Ergebnis zu erhalten.

import random
import time

import boto3

AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
S3_DESTINATION_BUCKET = "<BUCKET>"

video_prompt = "Closeup of a large seashell in the sand. Gentle waves flow all around the shell. Sunset light. Camera zoom in very close."

bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
model_input = {
    "taskType": "TEXT_VIDEO",
    "textToVideoParams": {"text": video_prompt},
    "videoGenerationConfig": {
        "durationSeconds": 6,
        "fps": 24,
        "dimension": "1280x720",
        "seed": random.randint(0, 2147483648)
    }
}

invocation = bedrock_runtime.start_async_invoke(
    modelId=MODEL_ID,
    modelInput=model_input,
    outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)

invocation_arn = invocation["invocationArn"]
s3_prefix = invocation_arn.split('/')[-1]
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"\nS3 URI: {s3_location}")

while True:
    response = bedrock_runtime.get_async_invoke(
        invocationArn=invocation_arn
    )
    status = response["status"]
    print(f"Status: {status}")
    if status != "InProgress":
        break
    time.sleep(SLEEP_TIME)

if status == "Completed":
    print(f"\nVideo is ready at {s3_location}/output.mp4")
else:
    print(f"\nVideo generation status: {status}")

Ich führe das Skript aus:

Status: InProgress. . .
Status: Completed
Video is ready at s3://BUCKET/PREFIX/output.mp4

Nach einigen Minuten ist das Skript abgeschlossen und gibt den Ausgabeort im HAQM Simple Storage Service (HAQM S3) aus. Ich lade das Ausgabevideo mit der AWS Command Line Interface (AWS CLI) herunter:

aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-text.mp4

Dies ist das resultierende Video. Wie angefordert, zoomt die Kamera auf das Subjekt.

Verwendung von HAQM Nova Reel mit einem Referenzbild

Um eine bessere Kontrolle über die Erstellung des Videos zu haben, kann ich HAQM Nova Reel ein Referenzbild wie das folgende zur Verfügung stellen:

Dieses Skript verwendet das Referenzbild und eine Textaufforderung mit einer Kameraaktion (drone view flying over a coastal landscape), um ein Video zu erstellen:

import base64import randomimport timeimport boto3S3_DESTINATION_BUCKET = "<BUCKET>"AWS_REGION = "us-east-1"MODEL_ID = "amazon.nova-reel-v1:0"SLEEP_TIME = 30input_image_path = "seascape.png"video_prompt = "drone view flying over a coastal landscape"bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)# Load the input image as a Base64 string.with open(input_image_path, "rb") as f:    input_image_bytes = f.read()    input_image_base64 = base64.b64encode(input_image_bytes).decode("utf-8")model_input = {    "taskType": "TEXT_VIDEO",    "textToVideoParams": {        "text": video_prompt,        "images": [{ "format": "png", "source": { "bytes": input_image_base64 } }]        },    "videoGenerationConfig": {        "durationSeconds": 6,        "fps": 24,        "dimension": "1280x720",        "seed": random.randint(0, 2147483648)    }}invocation = bedrock_runtime.start_async_invoke(    modelId=MODEL_ID,    modelInput=model_input,    outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}})invocation_arn = invocation["invocationArn"]s3_prefix = invocation_arn.split('/')[-1]s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"print(f"\nS3 URI: {s3_location}")while True:    response = bedrock_runtime.get_async_invoke(        invocationArn=invocation_arn    )    status = response["status"]    print(f"Status: {status}")    if status != "InProgress":        break    time.sleep(SLEEP_TIME)if status == "Completed":    print(f"\nVideo is ready at {s3_location}/output.mp4")else:    print(f"\nVideo generation status: {status}")

Wieder lade ich die Ausgabe mit der AWS CLI herunter:

aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-image.mp4

Dies ist das resultierende Video. Die Kamera beginnt vom Referenzbild und bewegt sich vorwärts.

Verantwortungsvolle Entwicklung von KI
Bei der Entwicklung der HAQM Nova Modelle stehen die Sicherheit und das Vertrauen der Kunden im Mittelpunkt. So können Sie sich auf die Modelle verlassen und haben gleichzeitig die Möglichkeit, sie an Ihre individuellen Anwendungsfälle anzupassen.

Wir haben umfassende Sicherheitsfunktionen und Möglichkeiten zur Moderation von Inhalten integriert, damit Sie KI verantwortungsvoll einsetzen können. Jedes generierte Bild und Video enthält ein digitales Wasserzeichen.

Die Modelle der HAQM Nova Foundation sind mit Schutzfunktionen ausgestattet, die ihren erweiterten Fähigkeiten entsprechen. HAQM Nova erweitert unsere Sicherheitsmaßnahmen, um die Verbreitung von Fehlinformationen, Material zum sexuellen Missbrauch von Kindern (CSAM) und chemischen, biologischen, radiologischen oder nuklearen Gefahren (CBRN) zu bekämpfen.

Wissenswertes
HAQM Nova-Modelle sind in HAQM Bedrock in der AWS-Region US-Ost (Nord-Virginia) verfügbar. HAQM Nova Micro, Lite und Pro sind auch in den Regionen US-West (Oregon) und US-Ost (Ohio) über regionsübergreifende Inferenz verfügbar. Wie üblich bei HAQM Bedrock folgt die Preisgestaltung einem Pay-as-you-go-Modell. Weitere Informationen finden Sie unter HAQM Bedrock Preisgestaltung.

Die neue Generation der HAQM Nova Verständnismodelle spricht Ihre Sprache. Diese Modelle verstehen und generieren Inhalte in über 200 Sprachen, mit besonders starken Fähigkeiten in Englisch, Deutsch, Spanisch, Französisch, Italienisch, Japanisch, Koreanisch, Arabisch, vereinfachtem Chinesisch, Russisch, Hindi, Portugiesisch, Niederländisch, Türkisch und Hebräisch. Das bedeutet, Sie können wirklich globale Anwendungen erstellen, ohne sich um Sprachbarrieren oder die Pflege separater Modelle für verschiedene Regionen sorgen zu müssen. HAQM Nova-Modelle für kreative Inhaltserstellung unterstützen englische Prompts.

Bei der Erkundung von HAQM Nova werden Sie seine Fähigkeit entdecken, zunehmend komplexe Aufgaben zu bewältigen. Sie können diese Modelle verwenden, um umfangreiche Dokumente mit bis zu 300.000 Tokens zu verarbeiten, mehrere Bilder in einer einzigen Anfrage zu analysieren, bis zu 30 Minuten Videoinhalt zu verstehen und Bilder und Videos im großen Maßstab aus natürlicher Sprache zu generieren. Dies macht diese Modelle für eine Vielzahl von Geschäftsanwendungsfällen geeignet, von schnellen Kundenserviceinteraktionen bis hin zur tiefgehenden Analyse von Unternehmensdokumentationen und der Erstellung von Assets für Werbung, E-Commerce und Social-Media-Anwendungen.

Die Integration mit HAQM Bedrock macht die Bereitstellung und Skalierung unkompliziert. Sie können Funktionen wie HAQM Bedrock Knowledge Bases nutzen, um Ihr Modell mit proprietären Informationen zu erweitern, HAQM Bedrock Agents verwenden, um komplexe Workflows zu automatisieren, und HAQM Bedrock Guardrails implementieren, um verantwortungsvolle KI-Nutzung zu fördern. Die Plattform unterstützt Echtzeit-Streaming für interaktive Anwendungen, Batch-Verarbeitung für Workloads mit hohem Volumen und detailliertes Monitoring, um Ihnen bei der Optimierung der Leistung zu helfen.

Bereit, mit HAQM Nova zu beginnen? Probieren Sie die neuen Modelle noch heute in der HAQM Bedrock-Konsole aus, besuchen Sie den Abschnitt HAQM Nova-Modelle in der HAQM Bedrock-Dokumentation und senden Sie Feedback an AWS re:Post für HAQM Bedrock[EN]. Tiefgehende technische Inhalte und Entdeckungen, wie unsere Builder-Communities HAQM Bedrock nutzen, finden Sie unter community.aws[EN]. Lassen Sie uns wissen, was Sie mit diesen neuen Modellen bauen!

Über die Autoren

Danilo Poccia arbeitet mit Startups und Unternehmen jeder Größe zusammen, um deren Innovation zu unterstützen. In seiner Rolle als Chief Evangelist (EMEA) bei HAQM Web Services nutzt er seine Erfahrung, um Menschen dabei zu helfen, ihre Ideen zum Leben zu erwecken. Dabei konzentriert er sich auf serverlose Architekturen und ereignisgesteuerte Programmierung sowie auf die technischen und geschäftlichen Auswirkungen von maschinellem Lernen und Edge Computing. Er ist der Autor von „AWS Lambda in Action“ aus dem Manning-Verlag.

AWS Germany – HAQM Web Services in Deutschland

Wir stellen vor: HAQM Nova: Grenzüberschreitende Intelligenz und branchenführendes Preis-Leistungs-Verhältnis

Über die Autoren