Kunden von HAQM FSx für Lustre

Adobe

Adobe wurde vor 40 Jahren mit der einfachen Idee gegründet, innovative Produkte zu entwickeln, die die Welt verändern. Adobe bietet bahnbrechende Technologien, die es jedem überall ermöglichen, sich digitale Erlebnisse vorzustellen, zu schaffen und zum Leben zu erwecken.

Herausforderung: Anstatt sich auf Open-Source-Modelle zu verlassen, hat Adobe beschlossen, seine eigenen grundlegenden generativen KI-Modelle zu trainieren, die auf kreative Anwendungsfälle zugeschnitten sind.

Lösung: Adobe hat in AWS eine KI-Superautobahn eingerichtet, um eine KI-Trainingsplattform und Daten-Pipelines für die schnelle Iteration von Modellen zu erstellen. Adobe hat seine Lösung mit Instances von HAQM Elastic Compute Cloud (HAQM EC2) P5 und P4d entwickelt, die von NVIDIA-GPUs, HAQM Elastic Kubernetes Service (HAQM EKS), HAQM Elastic Block Store (HAQM EBS) und HAQM Elastic Fabric Adapter (EFA) betrieben werden. Adobe nutzte auch HAQM Simple Storage Service (HAQM S3) als Data Lake und primäres Repository für die großen Datenmengen. Adobe nutzte die Hochleistungsdateispeicherung HAQM FSx Lustre, um einen schnellen Zugriff auf Daten zu ermöglichen und sicherzustellen, dass GPU-Ressourcen niemals ungenutzt bleiben.

Man könnte meinen, man erschaffe seine eigene KI-Cloud, aber durch die Partnerschaft mit AWS können wir uns auf unsere Alleinstellungsmerkmale konzentrieren

Alexandru Costin – Vice President, Generative AI und Sensei bei Adobe

Lesen Sie die Adobe-Fallstudie. »
LG AI Research

LG AI Research Gemeinsam mit weltweit führenden KI-Experten möchte LG AI Research die nächste Ära der KI anführen, um gemeinsam mit Ihnen die vielversprechende Zukunft zu verwirklichen, indem wir ein optimales Forschungsumfeld bieten und modernste KI-Technologien nutzen.

Herausforderung: LG AI Research musste sein Basismodell, EXAONE, innerhalb eines Jahres in der Produktion einsetzen. EXAONE, die Abkürzung für „Expert AI for Everyone“, ist ein multimodales Modell mit 300 Milliarden Parametern, das sowohl Bilder als auch Textdaten verwendet.

Lösung: LG AI Research nutzte HAQM SageMaker, um sein umfangreiches Foundation-Modell zu trainieren, und HAQM FSx für Lustre, um Daten auf Instances zu verteilen, um das Modelltraining zu beschleunigen. LG AI Research musste sein Basismodell, EXAONE, innerhalb eines Jahres in der Produktion einsetzen. LG AI Research hat EXAONE innerhalb eines Jahres erfolgreich eingeführt und die Kosten um rund 35 Prozent gesenkt, da kein separates Infrastrukturmanagementteam mehr erforderlich war.

Lesen Sie die Fallstudie von LG AI Research. »
Paige

Paige ist der führende Anbieter für die Transformation digitaler Pathologie und bietet eine umfassende, KI-fähige, webbasierte Lösung, die die Krebsdiagnose effizient und zuverlässig macht.

Herausforderung: Die On-Premises-Lösungen von Paige waren voll ausgeschöpft. Ihr Ziel war es, KI- und ML-Modelle zu trainieren, um bei der Krebserkrankung zu helfen. Paige entdeckte, dass sie ihre Modelle umso schneller trainieren und diagnostische Probleme lösen können, je mehr Rechenkapazität sie haben.

Lösung: Für die Ausführung ihrer ML-Training-Workloads entschied sich Paige für HAQM-EC2-P4d-Instances, die auf NVIDIA A100-Tensor-Core-GPUs basieren und eine hohe Leistung für ML-Trainings- und HPC-Anwendungen in der Cloud bieten. Paige verwendet HAQM FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf einem beliebten Hochleistungsdateisystem basiert. Das Unternehmen hat diesen Service mit einigen seiner HAQM-S3-Buckets verbunden, sodass seine Entwicklungsteams Petabyte an ML-Eingabedaten verarbeiten können, ohne Daten manuell auf Hochleistungsdateisystemen vorab bereitstellen zu müssen. Das Ergebnis der AWS-Lösung ist, dass Paige mithilfe der AWS-Infrastruktur für ML die zehnfache Menge an On-Premises-Daten trainieren kann. Paige erlebte außerdem 72 % schnellere interne Workflows mit HAQM EC2 und HAQM FSx für Lustre.

Durch die Verbindung von HAQM FSx für Lustre mit HAQM S3 können wir problemlos mit der zehnfachen Datenmenge trainieren, die wir je in der On-Premises-Infrastruktur ausprobiert haben.

Alexander van Eck, Mitarbeiter des KI-Ingenieurs – Paige

Lesen Sie die Fallstudie Paige fördert die Krebsbehandlung mithilfe eines Hybrid-ML-Workflows, der mit HAQM-EC2-P4d-Instances erstellt wurde. »
Toyota

Das Toyota Research Institute entscheidet sich für FSx für Lustre, um die Trainingszeiten für Machine Learning bei der Objekterkennung zu verkürzen.

Das Toyota Research Institute (TRI) sammelt und verarbeitet große Mengen an Sensordaten aus seinen Testfahrten mit autonomen Fahrzeugen (AV). Jeder Trainingsdatensatz wird auf einem On-Premises-NAS-Gerät gespeichert und an HAQM Simple Storage Service (HAQM S3) übertragen, bevor er auf einem leistungsstarken GPU-Compute-Cluster verarbeitet wird. TRI benötigte ein leistungsstarkes Dateisystem, um seine Rechenressourcen zu kombinieren, das ML-Modelltraining zu beschleunigen und die Erkenntnisse für seine Datenwissenschaftler zu beschleunigen.

Wir benötigten ein paralleles Dateisystem für unsere ML-Trainingsdatensätze und entschieden uns für HAQM FSx für Lustre, da es im Vergleich zu unserem älteren Dateisystemangebot eine höhere Verfügbarkeit und Haltbarkeit bietet. Die Integration mit AWS-Services, einschließlich S3, machte es auch zur bevorzugten Option für unseren leistungsstarken Dateispeicher.

David Fluck, Softwareingenieur – Toyota Research Institute
Shell

Shell bietet ein dynamisches Portfolio an Energieoptionen – von Öl, Gas und Petrochemikalien bis hin zu Wind, Sonne und Wasserstoff – Shell ist stolz darauf, seinen Kunden die Energie zu liefern, die sie für ihr Leben benötigen.

Herausforderung: Shell setzt bei der Modellerstellung, beim Testen und bei der Validierung auf HPC. Von 2020 bis 2022 lag die GPU-Auslastung im Durchschnitt bei weniger als 90 %, was zu Projektverzögerungen und Einschränkungen bei der Erprobung neuer Algorithmen führte.

Lösung: Shell erweitert seine Rechenkapazität On-Premises, indem es mit HAQM-EC2-Clustern und HAQM FSx für Lustre in die Cloud geht. Diese Lösung gibt Shell die Möglichkeit, schnell nach oben und unten zu skalieren und zusätzliche Rechenkapazität nur dann zu erwerben, wenn sie benötigt wird. Die GPUs von Shell sind jetzt voll ausgelastet, was die Rechenkosten senkt und das Testen von Modellen für Machine Learning beschleunigt.
Storengy

Storengy, eine Tochtergesellschaft der ENGIE Group, ist ein führender Erdgaslieferant. Das Unternehmen bietet Gasspeicher, geothermische Lösungen, kohlenstofffreie Energieerzeugung und Speichertechnologien für Unternehmen auf der ganzen Welt an.

Um sicherzustellen, dass seine Produkte ordnungsgemäß gelagert werden, verwendet Storengy Hightech-Simulatoren zur Bewertung der unterirdischen Gasspeicherung. Dieser Prozess erfordert den umfassenden Einsatz von Hochleistungsrechnern (HPC). Das Unternehmen verwendet die HPC-Technologie auch für die Entdeckung und Exploration von Erdgas.

Dank AWS verfügen wir über die Skalierbarkeit und hohe Verfügbarkeit, um Hunderte von Simulationen gleichzeitig durchzuführen. Darüber hinaus skaliert die Lösung automatisch nach oben oder unten, um unsere Spitzen-Workload-Perioden zu unterstützen, sodass wir mit unserer HPC-Umgebung keine Überraschungen erleben.

Jean-Frederic Thebault – Ingenieur, Storengy
Smartronix

Smartronix nutzt FSx für Lustre, um eine zuverlässige Hochleistung für ihre SAS-Grid-Implementierungen bereitzustellen.

Smartronix bietet Cloud-Lösungen, Cybersicherheit, Systemintegration, weltweites C5ISR und Datenanalyse sowie missionsorientiertes Engineering für viele der weltweit führenden Handels- und Bundesorganisationen. Smartronix verließ sich bei der Analyse und Bereitstellung der landesweiten täglichen COVID-Statistiken auf SAS Grid und stellte fest, dass das selbstverwaltete, parallele Dateisystem schwierig zu verwalten und zu schützen war.

Die Zusammenarbeit mit AWS und die Nutzung ihrer verwalteten Lösungen wie FSx für Lustre haben es uns ermöglicht, unsere Kunden besser zu bedienen – mit höherer Verfügbarkeit und um 29 % geringeren Kosten als selbstverwaltete Dateisysteme.

Rob Mounier – Leitender Lösungsarchitekt, Smartronix
Netflix

Netflix ist ein Streaming-Service, der eine Vielzahl preisgekrönter Fernsehsendungen, Filme, Anime, Dokumentarfilme und mehr bietet.

Herausforderung: Netflix verwendet groß angelegte, verteilte Schulungen für Medien-ML-Modelle, für Miniaturansichten nach der Produktion, visuelle Effekte und die Generierung von Trailern für Tausende von Videos und Millionen von Clips. Bei Netflix gab es aufgrund der knotenübergreifenden Replikation und einer GPU-Leerlaufzeit von 40 % lange Wartezeiten.

Lösung: Netflix hat seine Pipeline zum Laden von Daten neu gestaltet und ihre Effizienz verbessert, indem alle Video-/Audioclips vorab berechnet wurden. Netflix entschied sich auch für HAQM UltraClusters (EC2-P4d-Instances), um die Rechenleistung zu beschleunigen. Die Leistung von HAQM FSx für Lustre ermöglicht es Netflix, GPUs zu überlasten und GPU-Leerlaufzeiten praktisch zu eliminieren. Netflix verzeichnet mit Pre-Compute und FSx für Lustre jetzt eine Verbesserung um das Drei- bis Vierfache, wodurch die Trainingszeit der Modelle von einer Woche auf 1-2 Tage reduziert wird.

Sehen Sie sich das Video an: Umfangreiches dezentrales Training von Media-ML-Modellen mit HAQM FSx für Lustre. »
Hyundai

Die Hyundai Motor Company hat sich zu einem weltweit anerkannten Automobilhersteller entwickelt, der seine Markenfahrzeuge in über 200 Länder exportiert.

Herausforderung: Einer der Algorithmen, die beim autonomen Fahren häufig verwendet werden, ist die semantische Segmentierung. Dabei handelt es sich um eine Aufgabe, bei der jedes Pixel eines Bildes mit einer Objektklasse annotiert wird. Diese Klassen können Straße, Person, Auto, Gebäude, Vegetation, Himmel usw. sein. Hyundai testet die Genauigkeit und sammelt zusätzliche Bilder, um die unzureichende Vorhersageleistung in bestimmten Situationen zu korrigieren. Dies kann jedoch eine Herausforderung sein, da oft nicht genügend Zeit zur Verfügung steht, um alle neuen Daten vorzubereiten und gleichzeitig genügend Zeit zu haben, um das Modell zu trainieren und die geplanten Termine einzuhalten.

Lösung: Hyundai entschied sich für HAQM SageMaker zur Automatisierung des Modelltrainings und für die HAQM-SageMaker-Bibliothek für Datenparallelität, um von einer einzelnen GPU zu verteiltem Training überzugehen. Sie entschieden sich für HAQM FSx für Lustre, um Modelle zu trainieren, ohne auf Datenkopien warten zu müssen. Sie entschieden sich auch für HAQM S3 für ihren dauerhaften Datenspeicher. Hyundai erreichte mit 8 GPU-Instances oder insgesamt 64 GPUs eine Skalierungseffizienz von bis zu 93 %. FSx für Lustre ermöglichte es Hyundai, mehrere Trainingsjobs und Experimente mit denselben Daten ohne Wartezeit durchzuführen.

Lesen Sie den Kundenblog-Eintrag »
Rivian

Rivian hat es sich zur Aufgabe gemacht, die Welt für immer abenteuerlich zu machen. Wir glauben, dass es eine verantwortungsvollere Art gibt, die Welt zu erkunden, und sind entschlossen, den Übergang zu einem nachhaltigen Verkehr aufregend zu gestalten.

Der Elektrofahrzeughersteller Rivian setzt auf fortschrittliche Modellierungs- und Simulationstechniken, um beschleunigte Entwicklungszeitpläne einzuhalten und den Bedarf an physischen Prototypen zu verringern. Mithilfe von Simulationen mit hoher Rechenkapazität können Ingenieure neue Konzepte testen und ihre Entwürfe schnell auf den Markt bringen.

Durch die Partnerschaft mit HAQM kann sich Rivian auf die nachhaltige Fahrzeugentwicklung und -auslieferung konzentrieren, nicht auf die IT. Und mit HAQM können wir unsere wichtigsten Entwicklungsanwendungen schneller ausführen als vor Ort, darunter: 56 % schneller auf Elements, 35 % schneller auf Siemens und 20 % schneller auf Ansys.

Madhavi Osanaka, CIO von Rivian

Lesen Sie die Rivian-Fallstudie »
DENSO

Denso entwickelt Bildsensoren für fortschrittliche Fahrerassistenzsysteme (ADAS), die Fahrer bei Funktionen wie Parken und Spurwechseln unterstützen.

Herausforderung: Um die erforderlichen ML-Modelle für die ADAS-Bilderkennung zu entwickeln, hatte DENSO GPU-Cluster in seiner On-Premises-Umgebung aufgebaut. Allerdings teilten sich mehrere ML-Techniker begrenzte GPU-Ressourcen, was sich negativ auf die Produktivität auswirkte – insbesondere in der geschäftigen Zeit vor der Veröffentlichung eines neuen Produkts.

Lösung: Durch die Einführung von HAQM SageMaker und HAQM FSx für Lustre konnte Denso die Erstellung von ADAS-Bilderkennungsmodellen beschleunigen, indem die Zeit für Datenerfassung, Modellentwicklung, Lernen und Evaluierung reduziert wurde.

„Die Umstellung auf die Cloud wird sich im Bereich der künstlichen Intelligenz und des Machine Learning weiter beschleunigen. Ich bin zuversichtlich, dass AWS uns weiterhin unterstützen wird, während wir weitere Funktionen hinzufügen.“

Kensuke Yokoi, Geschäftsführer von DENSO

Lesen Sie die Denso-Fallstudie. »
Joby Aviation

Joby Aviation nutzt AWS, um den Transport zu revolutionieren.

Herausforderung: Die Ingenieure von Joby verlassen sich auf High Performance Computing (HPC), um Tausende komplexer, rechenintensiver CFD-Simulationen (Computational Fluid Dynamics) durchzuführen, die jeweils Hunderte von CPU-Kernen verwenden und deren Durchführung viele Stunden dauern kann.

Lösung: Durch die Verwendung von HAQM Elastic Compute Cloud (HAQM EC2) und HAQM FSx für Lustre konnte Joby im Vergleich zu einer On-Premises-Hochleistungsrecheninfrastruktur schnellere Ergebnisse mit seinen CFD-Workloads erzielen.

Als wir versuchten, Dutzende von Simulationen gleichzeitig durchzuführen, lasen und schrieben wir mehrere Gigabyte an Daten gleichzeitig, was alles verlangsamte. FSx für Lustre hat diese Kapazitätsprobleme beseitigt. Wir können die Größe unserer Festplatte jetzt problemlos erhöhen.

Alex Stoll, Leiter der Aeromechanik, Joby Aviation

Lesen Sie die Fallstudie von Joby Aviation »
T-Mobile

T-Mobile erzielt jährliche Einsparungen in Höhe von 1,5 Mio. USD und verdoppelt die Geschwindigkeit von SAS-Grid-Workloads mithilfe von HAQM FSx für Lustre.

Herausforderung: T-Mobile hatte mit seinem selbst verwalteten SAS-Grid-Workload einen hohen Verwaltungsaufwand und Leistungsprobleme.

Lösung: T-Mobile implementierte HAQM FSx für Lustre, ein vollständig verwaltetes Hochleistungsdateisystem, für die Migration und Skalierung seiner SAS-Grid-Infrastruktur. T-Mobile nutzte die enge Integration von HAQM FSx und S3, um den Speicheraufwand zu reduzieren und den Betrieb zu optimieren.

HAQM FSx für Lustre hat uns geholfen, die Geschwindigkeit unserer SAS-Grid-Workloads zu verdoppeln, unsere Gesamtbetriebskosten um 83 % zu senken und unseren betrieblichen Aufwand vollständig zu reduzieren. Die Partnerschaft mit AWS ermöglicht es uns, uns auf das zu konzentrieren, was wir am besten können, nämlich innovative Produkte für unsere Kunden zu entwickeln und uns gleichzeitig auf die hochmodernen Speicherfunktionen von FSx und die erstklassigen Hosting-Funktionen von AWS zu verlassen.

Dinesh Korde, Senior Manager Softwareentwicklung – T-Mobile
Netflix

Die Produktion der vierten Staffel des Netflix-Episodendramas „The Crown“ stieß auf unerwartete Probleme, als sich der weltweite Lockdown aufgrund der COVID-19-Pandemie mit dem geplanten Beginn der Postproduktion für visuelle Effekte überschnitt. Durch die Einführung eines cloudbasierten Workflows auf AWS, einschließlich des HAQM-FSx-Lustre-Dateiservers für einen verbesserten Durchsatz, gelang es dem aus 10 VFX-Spezialisten bestehenden internen Team von Netflix, mehr als 600 VFX-Szenen für die 10 Folgen der neuen Staffel in gerade einmal 8 Monaten fertigzustellen – und das, obwohl die gesamte Arbeit remote ausgeführt wurde.

Lesen Sie den Blogbeitrag „'The Crown' in the Cloud“ »
Maxar

Maxar verwendet AWS, um Prognosen 58 % schneller als sein Wetter-Supercomputer zu liefern.

Herausforderung: Maxar Technologies, ein vertrauenswürdiger Partner und Innovator in den Bereichen Erdintelligenz und Weltrauminfrastruktur, musste im Vergleich zu seinem On-Premises-Supercomputer Wettervorhersagen schneller liefern.

Lösung: Maxar arbeitete mit AWS zusammen, um eine HPC-Lösung mit Schlüsseltechnologien wie HAQM Elastic Compute Cloud (HAQM EC2) für sichere, hochzuverlässige Rechenressourcen, HAQM FSx für Lustre zur Beschleunigung des Lese-/Schreibdurchsatzes seiner Anwendung und AWS ParallelCluster zum schnellen Aufbau von HPC-Rechenumgebungen auf AWS zu entwickeln.

Maxar verwendete HAQM FSx für Lustre in unserer AWS-HPC-Lösung, um das numerische Wettervorhersagemodell der NOAA auszuführen. Dadurch konnten wir die Rechenzeit um 58 % reduzieren und die Prognose in etwa 45 Minuten erstellen, was zu einem wesentlich kostengünstigeren Preis führte. Die Maximierung unserer AWS-Rechenressourcen war für uns eine unglaubliche Leistungssteigerung.

Stefan Cecelski, PhD, leitender Datenwissenschaftler und Ingenieur – Maxar Technologies

Lesen Sie die Maxar-Fallstudie »
INEOS TEAM UK

INEOS TEAM UK beschleunigt mithilfe von AWS die Bootskonstruktion für den America's Cup.

Herausforderung: Das 2018 gegründete INEOS TEAM UK hat sich zum Ziel gesetzt, den America's Cup – die älteste internationale Sporttrophäe der Welt – nach Großbritannien zu bringen. Der America's Cup beschränkt die Tests auf dem Wasser auf nicht mehr als 150 Tage vor der Veranstaltung, sodass leistungsstarke numerische Strömungssimulationen (CFD) von Einrumpfbooten und Foils von entscheidender Bedeutung für ein erfolgreiches Bootsdesign sind.

Lösung: Mit AWS kann INEOS TEAM UK Tausende von Konstruktionssimulationen für sein America's-Cup-Boot in einer Woche verarbeiten, im Gegensatz zu mehr als einem Monat in einer On-Premises-Umgebung. INEOS TEAM UK nahm 2021 an der 36. Ausgabe des America's Cup teil. Das Team verwendet eine HPC-Umgebung, die auf HAQM-EC2-Spot-Instances läuft. Um eine schnelle Festplattenleistung für die Tausende von Simulationen zu gewährleisten, die jede Woche durchgeführt werden, nutzte das Team außerdem HAQM FSx für Lustre, um ein schnelles, skalierbares und sicheres Hochleistungsdateisystem basierend auf HAQM Simple Storage Service (S3) bereitzustellen.

AWS ermöglicht es uns, größere Designschritte zu unternehmen, einfach weil wir mehr Zeit haben, um unsere Ergebnisse zu verstehen.

Nick Holroyd, Designleiter – INEOS TEAM UK

Lesen Sie die Fallstudie von INEOS TEAM UK »
Hive VFX

Hive VFX senkt die anfänglichen Studiokosten und wird als Cloud-VFX-Studio auf AWS betrieben.

Herausforderung: Hive benötigte eine leistungsstarke Infrastruktur, um ein kleines, unabhängiges Cloud-Studio einzurichten, in dem Künstler auf der ganzen Welt hochwertige Inhalte erstellen können.

Lösung: Das vollständig verwaltete HAQM FSx für Lustre, integriert in HAQM S3, bot schnellen Zugriff auf AWS-Rechenressourcen ohne große Vorabinvestitionen oder internes IT-Team-Know-How. Die nahtlose Synchronisation von Dateidaten und Dateiberechtigungen zwischen FSx Lustre und S3 ermöglichte es Hive VFX, eine große Menge an Bildern zu speichern und Projektdaten über Kontinente hinweg auszutauschen.

Ich kann ein Dateisystem von HAQM FSx für Lustre in 5 Minuten einrichten und alles wird von AWS verwaltet.

Bernie Kimbacher, Gründer – Hive VFX

Lesen Sie die Hive-VFX-Fallstudie »
Lyell

Lyell beschleunigt seine Forschung zur zellbasierten Krebsbehandlung mit HAQM FSx für Lustre.

Herausforderung: Lyell bietet kurative, zellbasierte Krebsbehandlungen an, für die ein groß angelegtes rechnergestütztes Design von Proteinen erforderlich ist. Diese Workloads wurden traditionell vor Ort ausgeführt, aber das Unternehmen benötigte eine skalierbarere, kostengünstigere Lösung, da sie auf die Durchführung von nur einem Experiment pro Monat beschränkt war.

Lösung: Seit der Migration ihres Dateisystems zu FSx für Lustre können Datenwissenschaftler Tausende von HPC-Clustern, die aus EC2-Instances und HAQM-FSx-Dateisystemen bestehen, auf- und abschalten. Dadurch können sie verarbeitungsintensive Experimente schnell ausführen und nur für die Dauer der Workload für Rechen- und Speicherkosten bezahlen.

HAQM für FSx Lustre beschleunigt unsere Forschung zur Entwicklung der Krebsbehandlung der nächsten Generation. Mit FSx haben wir die Ausführungszeit unserer Experimente von Wochen auf Stunden reduziert und es Wissenschaftlern ermöglicht, viel mehr Hypothesen als zuvor zu testen. Unsere Workloads, die auf Zehntausenden von Rechenknoten laufen, können jetzt FSx verwenden, um auf S3-Daten mit extrem hohen Datenmengen zuzugreifen.

Anish Kejariwal, Leiter der Abteilung Datenanalysetechnik – Lyell Immunopharma
BlackThorn Therapeutics

BlackThorn Therapeutics beschleunigt die Zeit bis zur Erkenntnisgewinnung mit FSx für Lustre.

Herausforderung: Die Verarbeitung von Magnetresonanztomographie-Daten (MRT) unter Verwendung von Standard-DiY-Cloud-Dateisystemen war ressourcen- und zeitintensiv. BlackThorn benötigte eine rechenintensive, gemeinsam genutzte Dateispeicherlösung, um seine Workflows in den Bereichen Datenwissenschaft und Machine Learning zu vereinfachen.

Lösung: HAQM FSx für Lustre ist in HAQM S3 und HAQM SageMaker integriert und bietet eine schnelle Verarbeitung ihrer ML-Trainingsdatensätze sowie einen nahtlosen Zugriff auf Rechenleistung mithilfe von HAQM-EC2-Instances.

FSx für Lustre hat es uns ermöglicht, eine leistungsstarke MRT-Datenverarbeitungspipeline zu erstellen. Die Datenverarbeitungszeit für unsere ML-basierten Workflows wurde im Vergleich zu Tagen und Wochen auf Minuten reduziert.

Oscar Rodriguez, leitender Direktor für Innovation und Technologie – BlackThorn Therapeutics
Qubole

Qubole verbessert die Datenbeständigkeit und senkt gleichzeitig die Kosten mit HAQM FSx für Lustre.

Herausforderung: Qubole war auf der Suche nach einer leistungsstarken Speicherlösung für die Verarbeitung von Analyse- und KI/ML-Workloads für seine Kunden. Sie mussten die in ihrer EC2-Spot-Flotte enthaltenen Zwischendaten einfach speichern und verarbeiten.

Lösung: Qubole verwendete HAQM FSx für Lustre, um Zwischendaten über sein paralleles Hochgeschwindigkeitsdateisystem zu speichern und zu verarbeiten.

Die beiden größten Probleme unserer Benutzer, hohe Kosten und zwischenzeitlicher Datenverlust, ergaben sich aus der Verwendung ungenutzter EC2-Instances und EC2-Spot-Instances zur Verarbeitung und Speicherung von Zwischendaten, die von verteilten Verarbeitungsframeworks wie Hive und Spark generiert wurden. Wir konnten dieses Problem lösen, indem wir HAQM FSx für Lustre, ein hochperformantes Dateisystem, zum Auslagern von Zwischendaten verwendeten. Jetzt müssen unsere Benutzer nicht mehr für die Wartung inaktiver Instances bezahlen und sind nicht von unterbrochenen EC2-Spot-Knoten betroffen. HAQM FSx hat unseren Benutzern geholfen, die Gesamtkosten um 30 % zu senken.

Joydeep Sen Sarma, Technischer Mitarbeiter – Qubole