Implementiere DeepSeek-R1 destillierte Llama Modelle mit HAQM Bedrock Custom Model Import

von Raj Pathak, Harsh Patel, Ishan Singh, Morgan Rankey, and Yanyan Zhang übersetzt durch David Surey

Open Foundation Models (FMs) sind zu einem Eckpfeiler der generativen KI-Innovation geworden und ermöglichen es Organisationen, KI-Anwendungen zu erstellen und anzupassen, während sie Kontrolle über ihre Kosten und Bereitstellungsstrategien behalten. Durch die Bereitstellung hochwertiger, offen verfügbarer Modelle fördert die KI-Community schnelle Iterationen, Wissensaustausch und kosteneffektive Lösungen, die sowohl Entwicklern als auch Endnutzern zugutekommen. DeepSeek AI[EXTERN,EN], ein Forschungsunternehmen, das sich auf die Weiterentwicklung von KI-Technologie konzentriert, hat sich als bedeutender Beitragender zu diesem Ökosystem hervorgetan. Ihre DeepSeek-R1[EXTERN,EN]-Modelle repräsentieren eine Familie von großen Sprachmodellen (LLMs), die entwickelt wurden, um ein breites Spektrum von Aufgaben zu bewältigen. Von Codegenerierung bis hin zu allgemeinem Reasoning reichen die Einsatzmöglichkeiten während die FMs immer eine wettbewerbsfähige Leistung und Effizienz beibehalten.

HAQM Bedrock Custom Model Import ermöglicht den Import und die Nutzung Ihrer angepassten Modelle neben bestehenden FMs über eine einzige serverlose und einheitliche API. Sie können auf Ihre importierten benutzerdefinierten Modelle bei Bedarf und ohne die Notwendigkeit, die zugrunde liegende Infrastruktur zu verwalten, zugreifen. Beschleunigen Sie Ihre generative KI-Anwendungsentwicklung, indem Sie Ihre unterstützten benutzerdefinierten Modelle mit nativen Bedrock-Tools und -Funktionen wie Knowledge Bases, Guardrails und Agents integrieren.

In diesem Beitrag untersuchen wir, wie man destillierte Versionen von DeepSeek-R1 mit HAQM Bedrock Custom Model Import bereitstellt und sie Organisationen zugänglich macht, die modernste KI-Fähigkeiten innerhalb der sicheren und skalierbaren AWS-Infrastruktur zu effektiven Kosten nutzen möchten.

DeepSeek-R1 destillierte Varianten

Ausgehend von der Grundlage von DeepSeek-R1 hat DeepSeek AI eine Reihe von destillierten Modellen geschaffen. Diese basieren sowohl auf Metas Llama- als auch auf Qwen-Architekturen und reichen von 1,5 bis 70 Milliarden Parametern. Der Destillationsprozess beinhaltet das Trainieren kleinerer, effizienterer Modelle, um das Verhalten und die Denkmuster des größeren DeepSeek-R1-Modells nachzuahmen während dieses als Lehrer verwendet wird. Im Wesentlichen wird das Wissen und die Fähigkeiten des 671-Milliarden-Parameter-Modells in kompaktere Architekturen übertragen. Die resultierenden destillierten Modelle, wie DeepSeek-R1-Distill-Llama-8B (vom Basismodell Llama-3.1-8B[EXTERN,EN]) und DeepSeek-R1-Distill-Llama-70B (vom Basismodell Llama-3.3-70B-Instruct[EXTERN,EN]), bieten verschiedene Kompromisse zwischen Leistung und Ressourcenanforderungen. Obwohl destillierte Modelle im Vergleich zum ursprünglichen 671B-Modell eine gewisse Reduzierung der Reasoning-Fähigkeiten aufweisen können, verbessern sie die Inferenzgeschwindigkeit erheblich und reduzieren die Rechenkosten. Beispielsweise können kleinere destillierte Modelle wie die 8B-Version Anfragen viel schneller verarbeiten und weniger Ressourcen verbrauchen, was sie für Produktionsbereitstellungen kosteneffizienter macht. Währenddessen behalten größere destillierte Versionen wie das 70B-Modell eine nähere Leistung zum Original bei und bieten dennoch bedeutende Effizienzgewinne.

Lösungsübersicht

In diesem Beitrag zeigen wir, wie man destillierte Versionen von DeepSeek-R1-Modellen mit HAQM Bedrock Custom Model Import bereitstellt. Wir konzentrieren uns auf den Import der derzeit unterstützten Varianten DeepSeek-R1-Distill-Llama-8B und DeepSeek-R1-Distill-Llama-70B, die ein optimales Gleichgewicht zwischen Leistung und Ressourceneffizienz bieten. Sie können diese Modelle aus HAQM Simple Storage Service (HAQM S3) oder einem HAQM SageMaker AI-Modell-Repository importieren und sie in einer vollständig verwalteten und serverlosen Umgebung über HAQM Bedrock bereitstellen. Das folgende Diagramm veranschaulicht den End-to-End-Ablauf.

In diesem Workflow werden in HAQM S3 gespeicherte Modellartefakte in HAQM Bedrock importiert, das dann die Bereitstellung und Skalierung des Modells automatisch übernimmt. Dieser serverlose Ansatz eliminiert die Notwendigkeit der Infrastrukturverwaltung und bietet gleichzeitig Sicherheit und Skalierbarkeit auf Unternehmensebene.

Sie können die HAQM Bedrock-Konsole für die Bereitstellung über die grafische Benutzeroberfläche verwenden und den Anweisungen in diesem Beitrag folgen, oder alternativ das folgende Notebook[EXTERN,EN] verwenden, um das Beispiel programmatisch mit dem HAQM Bedrock SDK bereitzustellen.

Voraussetzungen

Sie sollten die folgenden Voraussetzungen erfüllen:

Ein AWS-Konto mit Zugang zu HAQM Bedrock.
Angemessene AWS Identity and Access Management (IAM)-Rollen und -Berechtigungen für HAQM Bedrock und HAQM S3. Weitere Informationen finden Sie unter Erstellen einer Servicerolle für den Modellimport.
Ein S3-Bucket, der für die Speicherung des benutzerdefinierten Modells vorbereitet ist. Weitere Informationen finden Sie unter Erstellen eines Buckets.
Ausreichend lokaler Speicherplatz, mindestens 17 GB für das 8B-Modell oder 135 GB für das 70B-Modell.

Vorbereiten des Modellpakets

Führen Sie die folgenden Schritte aus, um das Modellpaket vorzubereiten:

Laden Sie die DeepSeek-R1-Distill-Llama-Modellartefakte von einem der folgenden Links von Hugging Face herunter. Wählen Sie den Link abhängig von dem Modell, das Sie bereitstellen möchten:
1. http://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B/tree/main[EXTERN,EN]
2. http://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/tree/main[EXTERN,EN]

Weitere Informationen finden Sie in den Anweisungen von Hugging Face zum Herunterladen von Modellen[EXTERN,EN] oder Herunterladen von Dateien vom Hub[EXTERN,EN].

Typischerweise benötigen Sie die folgenden Dateien:

- Modellkonfigurationsdatei: config.jsonconfig.json
- Tokenizer-Dateien: tokenizer.jsontokenizer.json, tokenizer.modeltokenizer_config.json und special_tokens_map.jsontokenizer.mode
- Modellgewichtsdateien im .safetensors.safetensors-Format

Laden Sie diese Dateien in einen Ordner Ihres S3-Bucket in derselben AWS-Region hoch, in der Sie HAQM Bedrock verwenden möchten. Notieren Sie sich dann den S3-Pfad, den Sie verwenden.

Importieren des Modells

Führen Sie die folgenden Schritte aus, um das Modell zu importieren:

Wählen Sie in der HAQM Bedrock-Konsole unter Foundation models im Navigationsbereich Imported models aus.

Wählen Sie Import model aus.

Geben Sie unter Model name einen Namen für Ihr Modell ein (es wird empfohlen, ein Versionierungsschema in Ihrem Namen zu verwenden, um Ihr importiertes Modell zu verfolgen).
Geben Sie unter Import job name einen Namen für Ihren Importauftrag ein.
Wählen Sie für Model import settings HAQM S3 bucket als Importquelle aus und geben Sie den S3-Pfad ein, den Sie zuvor notiert haben (geben Sie den vollständigen Pfad in der Form s3://<your-bucket>/folder-with-model-artifacts/ an).
Wählen Sie für Encryption optional die Anpassung Ihrer Verschlüsselungseinstellungen.
Wählen Sie für Service access role entweder die Erstellung einer neuen IAM-Rolle oder geben Sie Ihre eigene an.
Wählen Sie Import model aus.

Der Import des Modells dauert je nach importiertem Modell mehrere Minuten (zum Beispiel könnte das Distill-Llama-8B-Modell 5-20 Minuten bis zum Abschluss benötigen).

Sehen Sie sich dieses Video-Demo für eine Schritt-für-Schritt-Anleitung an.

Testen des importierten Modells

Nach dem Import des Modells können Sie es mit dem HAQM Bedrock Playground oder direkt über die HAQM Bedrock Invocation APIs testen. Um den Playground zu verwenden, führen Sie die folgenden Schritte aus:

Wählen Sie in der HAQM Bedrock-Konsole unter Playgrounds im Navigationsbereich Chat / Text aus.
Wählen Sie aus dem Modellauswahl-Menü den Namen Ihres importierten Modells aus.
Passen Sie die Inferenzparameter nach Bedarf an und schreiben Sie Ihre Testanfrage. Zum Beispiel:
<｜begin▁of▁sentence｜><｜User｜>Given the following financial data: - Company A's revenue grew from $10M to $15M in 2023 - Operating costs increased by 20% - Initial operating costs were $7M Calculate the company's operating margin for 2023. Please reason step by step, and put your final answer within \\boxed{}<｜Assistant｜>

Da wir ein importiertes Modell im Playground verwenden, müssen wir die Tags „beginning_of_sentence“ und „user/assistant“ einfügen, um den Kontext für DeepSeek-Modelle richtig zu formatieren; diese Tags helfen dem Modell, die Struktur der Konversation zu verstehen und genauere Antworten zu liefern. Wenn Sie dem programmatischen Ansatz im folgenden Notebook[EXTERN,EN] folgen, wird dies automatisch durch die Konfiguration des Modells erledigt.

Überprüfen Sie die Modellantwort und die bereitgestellten Metriken.

Hinweis: Wenn Sie bei der ersten Ausführung des Modells auf einen ModelNotReadyException Fehler stoßen, wiederholt das SDK die Anfrage automatisch mit exponentieller Rückstellung. Die Wiederherstellungszeit variiert je nach Größe der On-Demand-Flotte und Modellgröße. Sie können das Wiederholungsverhalten mithilfe des AWS SDK für Python (Boto3) Config-Objekts anpassen. Weitere Informationen finden Sie unter Umgang mit ModelNotReadyException.

Preisgestaltung

Der Custom Model Import ermöglicht es Ihnen, Ihre benutzerdefinierten Modelle innerhalb von HAQM Bedrock für unterstützte Architekturen zu verwenden und sie neben den von HAQM Bedrock gehosteten FMs vollständig verwaltet im On-Demand-Modus bereitzustellen. Für den Custom Model Import fallen keine Gebühren für den Modellimport an, Sie werden für Inferenzen basierend auf zwei Faktoren berechnet: der Anzahl der aktiven Modellkopien und deren Aktivitätsdauer.

Die Abrechnung erfolgt in 5-Minuten-Fenstern, beginnend mit der ersten erfolgreichen Ausführung jeder Modellkopie. Der Preis pro Modellkopie pro Minute variiert basierend auf Faktoren wie Architektur, Kontextlänge, Region und Compute-Unit-Version und ist nach Modellkopiengröße gestaffelt. Die für das Hosting erforderlichen Custom Model Units hängen von der Architektur des Modells, der Parameteranzahl und der Kontextlänge ab, wobei Beispiele von 2 Einheiten für ein Llama 3.1 8B 128K-Modell bis zu 8 Einheiten für ein Llama 3.1 70B 128K-Modell reichen.

HAQM Bedrock verwaltet die Skalierung automatisch und hält standardmäßig null bis drei Modellkopien basierend auf Ihren Nutzungsmustern aufrecht (anpassbar über Service Quotas). Wenn es 5 Minuten lang keine Aufrufe gibt, skaliert es auf null und skaliert bei Bedarf wieder hoch. Dies kann eine Kaltstartlatenz von Dutzenden von Sekunden beinhalten. Zusätzliche Kopien werden hinzugefügt, wenn das Inferenzvolumen die Gleichzeitigkeitsgrenzen einer einzelnen Kopie konsistent überschreitet. Der maximale Durchsatz und die Gleichzeitigkeit pro Kopie werden während des Imports festgelegt, basierend auf Faktoren wie Input/Output-Token-Mix, Hardware-Typ, Modellgröße, Architektur und Inferenzoptimierungen.

Betrachten Sie das folgende Preisbeispiel: Ein Anwendungsentwickler importiert ein angepasstes Llama 3.1-Typ-Modell mit einer Größe von 8B Parametern und einer Sequenzlänge von 128K in der Region us-east-1 und löscht das Modell nach 1 Monat. Dies erfordert 2 Custom Model Units. Der Preis pro Minute beträgt also 0,1570 $ und die Modellspeicherkosten betragen 3,90 $ für den Monat.

Weitere Informationen finden Sie unter HAQM Bedrock Preisgestaltung.

Benchmarks

DeepSeek hat Benchmarks veröffentlicht[EXTERN,EN], die ihre destillierten Modelle mit den ursprünglichen DeepSeek-R1- und Basis-Llama-Modellen vergleichen, die in den Modell-Repositories verfügbar sind. Die Benchmarks zeigen, dass je nach Aufgabe DeepSeek-R1-Distill-Llama-70B zwischen 80-90% der Reasoning-Fähigkeiten des Originalmodells beibehält, während die 8B-Version zwischen 59-92% Leistung bei deutlich reduzierten Ressourcenanforderungen erreicht. Beide destillierten Versionen zeigen Verbesserungen gegenüber ihren entsprechenden Basis-Llama-Modellen in spezifischen Reasoning-Aufgaben.

Weitere Überlegungen

Beachten Sie bei der Bereitstellung von DeepSeek-Modellen in HAQM Bedrock folgende Aspekte:

Modellversionierung ist essenziell. Da der Custom Model Import für jeden Import einzigartige Modelle erstellt, implementieren Sie eine klare Versionierungsstrategie in Ihren Modellnamen, um verschiedene Versionen und Varianten zu verfolgen.
Die derzeit unterstützten Modellformate konzentrieren sich auf Llama-basierte Architekturen. Obwohl die destillierten Versionen von DeepSeek-R1 hervorragende Leistungen bieten, entwickelt sich das KI-Ökosystem rasant weiter. Behalten Sie den HAQM Bedrock-Modellkatalog im Auge, da neue Architekturen und größere Modelle über die Plattform verfügbar werden.
Bewerten Sie die Anforderungen Ihres Anwendungsfalls sorgfältig. Obwohl größere Modelle wie DeepSeek-R1-Distill-Llama-70B bessere Leistungen bieten, könnte die 8B-Version für viele Anwendungen ausreichende Fähigkeiten zu geringeren Kosten bieten.
Erwägen Sie die Implementierung von Überwachung und Beobachtbarkeit. HAQM CloudWatch liefert Metriken für Ihre importierten Modelle und hilft Ihnen, Nutzungsmuster und Leistung zu verfolgen. Sie können Kosten mit AWS Cost Explorer überwachen.
Beginnen Sie mit einem niedrigeren Gleichzeitigkeitsquotum und skalieren Sie basierend auf tatsächlichen Nutzungsmustern. Das Standardlimit von drei gleichzeitigen Modellkopien pro Konto ist für die meisten anfänglichen Bereitstellungen geeignet.

Fazit

HAQM Bedrock Custom Model Import ermöglicht es Organisationen, leistungsstarke öffentlich verfügbare Modelle wie die destillierten Versionen von DeepSeek-R1 und andere zu nutzen und dabei von einer Infrastruktur auf Unternehmensebene zu profitieren. Die serverlose Natur von HAQM Bedrock eliminiert die Komplexität der Verwaltung von Modellbereitstellungen und -betrieb und ermöglicht es Teams, sich auf die Entwicklung von Anwendungen statt auf Infrastruktur zu konzentrieren. Mit Funktionen wie automatischer Skalierung, nutzungsbasierter Preisgestaltung und nahtloser Integration mit AWS-Diensten bietet HAQM Bedrock eine produktionsreife Umgebung für KI-Workloads. Die Kombination aus DeepSeeks innovativem Destillationsansatz und der verwalteten Infrastruktur von HAQM Bedrock bietet ein optimales Gleichgewicht zwischen Leistung, Kosten und betrieblicher Effizienz. Organisationen können mit kleineren Modellen beginnen und bei Bedarf skalieren, während sie die volle Kontrolle über ihre Modellbereitstellungen behalten und von den Sicherheits- und Compliance-Fähigkeiten von AWS profitieren.

Die Möglichkeit, zwischen proprietären und offenen FMs in HAQM Bedrock zu wählen, gibt Organisationen die Flexibilität, ihre spezifischen Bedürfnisse zu optimieren. Offene Modelle ermöglichen eine kosteneffektive Bereitstellung mit voller Kontrolle über die Modellartefakte, was sie ideal für Szenarien macht, in denen Anpassung, Kostenoptimierung oder Modelltransparenz entscheidend sind. Diese Flexibilität in Kombination mit der einheitlichen API von HAQM Bedrock und der Infrastruktur auf Unternehmensebene ermöglicht es Organisationen, widerstandsfähige KI-Strategien aufzubauen, die sich an ihre sich entwickelnden Anforderungen anpassen können.

Weitere Informationen finden Sie im HAQM Bedrock Benutzerhandbuch.

Über die Autor:Innen

	Raj Pathak ist Principal Solutions Architect und technischer Berater für Fortune-50- und mittelgroße FSI-Kunden (Banken, Versicherungen, Kapitalmärkte) in Kanada und den Vereinigten Staaten. Raj ist spezialisiert auf maschinelles Lernen mit Anwendungen in generativer KI, Natural Language Processing, intelligenter Dokumentenverarbeitung und MLOps.
	Yanyan Zhang ist Senior Generative AI Data Scientist bei HAQM Web Services, wo sie als Generative AI-Spezialistin an modernsten KI/ML-Technologien arbeitet und Kunden dabei hilft, generative KI zur Erreichung ihrer gewünschten Ziele einzusetzen. Yanyan hat an der Texas A&M University einen Doktortitel in Elektrotechnik erworben. Außerhalb der Arbeit liebt sie das Reisen, Sport und das Erkunden neuer Dinge.
	Ishan Singh ist Generative AI Data Scientist bei HAQM Web Services, wo er Kunden beim Aufbau innovativer und verantwortungsvoller generativer KI-Lösungen und -Produkte unterstützt. Mit einem starken Hintergrund in KI/ML ist Ishan auf die Entwicklung von Generative AI-Lösungen spezialisiert, die geschäftlichen Mehrwert schaffen. Außerhalb der Arbeit spielt er gerne Volleyball, erkundet lokale Fahrradwege und verbringt Zeit mit seiner Frau und seinem Hund Beau.
	Morgan Rankey ist ein in New York City ansässiger Solutions Architect, der sich auf Hedgefonds spezialisiert hat. Er zeichnet sich dadurch aus, dass er Kunden beim Aufbau belastbarer Workloads innerhalb des AWS-Ökosystems unterstützt. Bevor er zu AWS kam, leitete Morgan das Sales Engineering-Team bei Riskified durch dessen Börsengang. Er begann seine Karriere mit dem Schwerpunkt auf KI/ML-Lösungen für das Management von Maschinenanlagen und betreute dabei einige der größten Automobilunternehmen weltweit.
	Harsh Patel ist AWS Solutions Architect und unterstützt über 200 KMU-Kunden in den Vereinigten Staaten bei der digitalen Transformation durch Cloud-native Lösungen. Als KI&ML-Spezialist konzentriert er sich auf Generative KI, Computer Vision, Reinforcement Learning und Anomalie-Erkennung. Außerhalb der Tech-Welt tankt er neue Energie beim Golfspielen und bei landschaftlich reizvollen Wanderungen mit seinem Hund.

AWS Germany – HAQM Web Services in Deutschland