HAQM EC2 UltraServers

Обучение искусственного интеллекта и формирование выводов при масштабировании

Почему HAQM EC2 UltraServers?

HAQM Elastic Compute Cloud (HAQM EC2) UltraServers идеально подходит для клиентов, которым нужна максимальная производительность обучения ИИ и построения логических выводов для моделей в масштабе триллионов параметров. UltraServers соединяет несколько инстансов EC2 с помощью выделенного соединения ускорителей с высокой пропускной способностью и малой задержкой, что позволяет применять тесно связанную сеть ускорителей между инстансами EC2 и получать доступ к значительно большему объему вычислительных ресурсов и памяти по сравнению с отдельными инстансами EC2.

Инстансы EC2 UltraServers идеально подходят для самых больших моделей, которым требуется больше памяти и ее пропускной способности по сравнению с отдельными инстансами EC2. Чтобы задействовать несколько инстансов к одному узлу, в конструкции UltraServer применяется подключение к ускорителю внутри инстанса. Такой подход открывает новые возможности. Для задач получения логических выводов инстансы UltraServers обеспечивают ведущее в отрасли время отклика и создание наилучших условий работы в режиме реального времени. Для задач обучения инстансы UltraServers повышают скорость и эффективность обучения модели благодаря более быстрой коллективной коммуникации для обеспечения параллелизма моделей по сравнению с отдельными инстансами. Инстансы EC2 UltraServers поддерживают сеть Интерфейса эластичной матрицы (EFA). При развертывании в EC2 инстансы UltraClusters обеспечивают масштабируемое распределенное обучение на десятках тысяч ускорителей в одной петабитной сети, которая не подвергается блокированию. Обеспечивая более высокую производительность обучения и логических выводов, инстансы UltraServers ускоряют вывод на рынок и помогает создавать приложения в режиме реального времени на основе самых производительных базовых моделей нового поколения.

Преимущества

Серверы UltraServer обеспечивают эффективное обучение и вывод моделей с сотнями миллиардов или триллионами параметров благодаря объединению множества ускорителей через высокоскоростное межсоединение с низкой задержкой и высокой пропускной способностью. Это позволяет предоставить больше вычислительных ресурсов и памяти по сравнению с отдельными инстансами EC2.

UltraServer позволяет делать выводы в реальном времени для сверхбольших моделей, которым требуются значительные ресурсы памяти и пропускной способности памяти, превышающие возможности одного инстанса EC2.

UltraServer обеспечивает более быструю коллективную связь в целях параллелизма моделей по сравнению с автономными инстансами, что позволяет сократить время обучения.

Возможности

Можно запустить инстансы в UltraServer и использовать выделенное соединение ускорителей с высокой пропускной способностью и малой задержкой между этими инстансами. Серверы UltraServer обеспечивают доступ к большему количеству ускорителей, подключенных к этому выделенному соединению, обеспечивая значительно больше вычислительных ресурсов и памяти на одном узле по сравнению с автономными инстансами EC2.

Серверы EC2 UltraServers, развернутые в EC2 UltraClusters, соединены петабитной сетью EFA для повышения производительности распределенных учебных рабочих нагрузок.

Можно использовать EC2 UltraServers вместе с высокопроизводительными решениями для хранения данных, такими как HAQM FSx для Lustre, полностью управляемым общим хранилищем, созданным на основе самой популярной высокопроизводительной параллельной файловой системы. HAQM Simple Storage Service (HAQM S3) также позволяет использовать практически неограниченное экономичное хранилище.

EC2 UltraServers созданы на основе AWS Nitro System – богатой коллекции компонентов, позволяющей выполнять многие традиционные функции виртуализации на выделенном оборудовании и программном обеспечении. Nitro обеспечивает высокую производительность, высокую доступность и высокий уровень безопасности, снижая затраты на виртуализацию.

Поддерживаемые инстансы

Инстансы Trn2

Инстансы Trn2 на базе чипов AWS Trainium2 в конфигурации Trn2 UltraServer (доступны в предварительной версии) позволяют масштабировать до 64 чипов Trainium2, подключенных к NeuronLink, выделенному соединению с высокой пропускной способностью и малой задержкой для чипов искусственного интеллекта AWS. Инстансы Trn2 UltraServers обеспечивают революционную производительность в HAQM EC2 для обучения генеративного искусственного интеллекта и создания логических выводов.

Подробнее