AWS Inferentia

Obtenez de hautes performances à moindre coût dans HAQM EC2 pour deep learning et les inférences d’IA générative

Commencez à utiliser les puces AWS Inferentia à l’aide d’AWS Neuron

Pourquoi choisir Inferentia ?

Les puces AWS Inferentia sont conçues par AWS dans le but d’offrir des performances élevées au coût le plus bas, dans HAQM EC2, pour vos applications de deep learning (DL) et d’inférence d’IA générative.

La puce AWS Inferentia de première génération alimente les instances Inf1 d’HAQM Elastic Compute Cloud (HAQM EC2), qui offrent un débit de 2,3 fois supérieur et un coût par inférence de 70 % inférieur à celui des instances HAQM EC2 comparables. De nombreux clients, dont Finch AI, Sprinklr, Money Forward et HAQM Alexa, ont adopté les instances Inf1 et réalisé ses avantages en matière de performances et de coûts.

La puce AWS Inferentia2 offre un débit jusqu’à 4 fois supérieur et une latence jusqu’à 10 fois inférieure à celle d’Inferentia. Les instances HAQM EC2 Inf2 basées sur Inferentia2 sont optimisées pour déployer des modèles de plus en plus complexes, tels que des grands modèles de langage (LLM) et des modèles de diffusion latente, à grande échelle. Les instances Inf2 sont les premières instances optimisées de l’inférence dans HAQM EC2 qui prennent en charge l’inférence distribuée à grande échelle avec une connectivité ultra-rapide entre les puces. De nombreux clients, dont Leonardo.ai, Deutsche Telekom et Qualtrics, ont adopté des instances Inf2 pour leurs applications de DL et d’IA générative.

AWS Neuron SDK permet aux développeurs de déployer des modèles sur les puces AWS Inferentia (et de les entraîner sur les puces AWS Trainium). Il s’intègre nativement avec les cadres les plus utilisés, tels que PyTorch et TensorFlow, de sorte que vous pouvez continuer à utiliser vos flux de travail existants et à les exécuter sur les accélérateurs Inferentia.

Avantages d’AWS Inferentia

Optimisé pour un débit élevé et une faible latence

Chaque puce Inferentia de première génération possède quatre NeuronCores de première génération, et chaque instance EC2 Inf1 possède jusqu’à 16 puces Inferentia. Chaque puce Inferentia2 possède deux NeuronCores de deuxième génération, et chaque instance EC2 Inf2 possède jusqu’à 12 puces Inferentia2. Chaque puce Inferentia2 prend en charge jusqu’à 190 téra opérations flottantes par seconde (TFLOPS) de performance FP16. L’Inferentia de première génération possède 8 Go de mémoire DDR4 par puce et dispose également d’une grande quantité de mémoire sur puce. Inferentia2 offre 32 Go de HBM par puce, ce qui augmente la mémoire totale de 4 fois et la bande passante mémoire de 10 fois par rapport à Inferentia.

Prise en charge native des frameworks de ML

AWS Neuron SDK s'intègre nativement aux frameworks ML les plus utilisés, tels que PyTorch et TensorFlow. Avec AWS Neuron, vous pouvez utiliser ces frameworks pour déployer de manière optimale des modèles de DL sur les deux puces AWS Inferentia et Neuron est conçu pour minimiser les changements de code et les liens avec les solutions spécifiques aux fournisseurs. Neuron vous aide à exécuter vos applications d’inférence pour la compréhension/le traitement du langage naturel (NLP), la traduction des langues, la génération de vidéos et d’images, la reconnaissance vocale, la personnalisation, la détection des fraudes, etc. sur les puces Inferentia.

Large éventail de types de données avec conversion automatique

Inferentia de première génération prend en charge les types de données FP16, BF16 et INT8. Inferentia2 ajoute un support supplémentaire pour FP32, TF32, et le nouveau type de données configurable FP8 (cFP8) pour fournir aux développeurs plus de flexibilité afin d'optimiser la performance et la précision. AWS Neuron prend des modèles FP32 de haute précision et les convertit automatiquement en types de données de moindre précision, tout en optimisant la précision et les performances. La conversion automatique réduit les délais de mise sur le marché en supprimant le besoin de reformation en basse précision.

Capacités DL de pointe

Inferentia2 ajoute des optimisations matérielles pour les formats d'entrée dynamiques et des opérateurs personnalisés écrits en C++. Il prend également en charge l'arrondi stochastique, un mode d'arrondi par probabilités qui permet d'obtenir des performances élevées et une plus grande précision par rapport aux modes d'arrondi traditionnels.

Conçu pour la durabilité

Les instances Inf2 offrent jusqu’à 50 % de performance/watt de plus que les instances HAQM EC2 comparables, car elles et les puces Inferentia2 sous-jacentes sont spécialement conçues pour exécuter des modèles de DL à grande échelle. Les instances Inf2 vous aident à atteindre vos objectifs de durabilité lors du déploiement de modèles ultra-larges.

Vidéos

Découvrez les coulisses de l'infrastructure d'IA générative d'HAQM

Présentation des instances HAQM EC2 Inf2 optimisées par AWS Inferentia2

Comment quatre clients AWS ont réduit leurs coûts de machine learning et ont stimulé l'innovation grâce à AWS Inferentia

Ressources

Affinez et déployez les modèles Llama 2 de manière rentable dans HAQM SageMaker JumpStart avec AWS Inferentia et AWS Trainium

Affinez Llama 2 à l’aide de QLoRA et déployez-le sur HAQM SageMaker avec AWS Inferentia2

Optimisez les performances de diffusion stable et réduisez les coûts d’inférence avec AWS Inferentia2

Obtenir de hautes performances à moindre coût pour l’inférence d’IA générative en utilisant AWS Inferentia2 et AWS Trainium sur HAQM SageMaker

ByteDance permet d'économiser jusqu’à 60 % sur les coûts d’inférence tout en réduisant la latence et en augmentant le débit grâce à AWS Inferentia

Comment HAQM Search a réduit les coûts d'inférence ML de 85 % avec AWS Inferentia

Additional resources

Utilisez AWS Neuron et commencez à utiliser AWS Inferentia depuis TensorFlow, PyTorch ou MXNet

Additional resources

Caractéristiques de la feuille de route d'AWS Neuron

Additional resources

Commencez à utiliser l’inférence sur AWS Inferentia à l’aide de ces didacticiels simples

Démarrez avec AWS Inferentia

Commencer à créer dans la console

Exemples d’inférence/didacticiels (Inf2/Trn1)