Mengapa Inferentia?
Chip AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah di HAQM EC2 untuk aplikasi inferensi deep learning (DL) dan AI generatif Anda.
Chip AWS Inferentia generasi pertama mendukung instans Inf1 HAQM Elastic Compute Cloud (HAQM EC2), yang menghasilkan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah dibandingkan instans HAQM EC2 yang sebanding. Banyak pelanggan, termasuk Finch AI, Sprinklr, Money Forward, dan HAQM Alexa, telah mengadopsi instans Inf1 serta mendapatkan keuntungannya dari sisi performa dan biaya.
Chip AWS Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 HAQM EC2 berbasis Inferentia2 dioptimalkan untuk melakukan deployment model yang semakin kompleks, seperti model bahasa besar (LLM) dan model difusi laten, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan untuk inferensi di HAQM EC2 untuk mendukung inferensi penambahan skala terdistribusi dengan konektivitas berkecepatan sangat tinggi di antara chip. Banyak pelanggan, termasuk Leonardo.ai, Deutsche Telekom, serta Qualtrics telah mengadopsi instans Inf2 untuk aplikasi DL dan AI generatif mereka.
SDK AWS Neuron membantu developer melakukan deployment model pada chip AWS Inferentia (dan melatihnya pada chip AWS Trainium). SDK AWS Neuron berintegrasi secara native dengan kerangka kerja yang populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta menjalankannya di chip Inferentia.