Publicado: May 8, 2024
A partir de hoje, as instâncias Inf2 do HAQM Elastic Compute Cloud (HAQM EC2) estão disponíveis ao público em geral nas regiões Ásia-Pacífico (Sydney), Europa (Londres), Europa (Paris), Europa (Estocolmo), América do Sul (São Paulo). Essas instâncias oferecem alta performance com o menor custo no HAQM EC2 para modelos de IA generativa.
Você pode usar as instâncias Inf2 para executar aplicações populares como resumos de textos, geração de código, geração de vídeo e imagem, reconhecimento de fala, personalização e muito mais. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no HAQM EC2 a introduzir a inferência distribuída com ajuste de escala horizontal e suporte do NeuronLink, uma interconexão não bloqueadora de alta velocidade. As instâncias Inf2 oferecem até 2,3 petaflops e até 384 GB de memória total do acelerador com largura de banda de 9,8 TB/s.
O SDK do AWS Neuron se integra de forma nativa às estruturas populares de machine learning, permitindo que você continue usando estruturas existentes para implantação na Inf2. Os desenvolvedores podem começar a usar instâncias Inf2 com as AMIs de deep learning da AWS, os contêineres de deep learning da AWS ou serviços gerenciados, como HAQM Elastic Container Service (HAQM ECS), HAQM Elastic Kubernetes Service (HAQM EKS) e HAQM SageMaker.
As instâncias Inf2 estão disponíveis em quatro tamanhos: inf2.xlarge, inf2.8xlarge, inf2.24xlarge e inf2.48xlarge em 13 regiões da AWS como instâncias sob demanda, reservadas e spot, ou como parte de planos de economia.
Para saber mais sobre as instâncias Inf2, consulte a página de instâncias Inf2 do HAQM EC2 e a documentação do AWS Neuron.