Publicado: Nov 5, 2018

Agora, os algoritmos incorporados fornecidos com o HAQM SageMaker oferecem suporte ao modo de pipe para conjuntos de dados no formato CSV. Esse recurso acelera o streaming de dados do HAQM Simple Storage Service (S3) para o SageMaker em até 40% durante o treinamento de módulos de Machine Learning (ML). Com esse novo aprimoramento, os benefícios de performance do modo de pipe são estendidos ao treinamento de conjuntos de dados no formato CSV, além do formato protobuf recordIO, lançado este ano.

O HAQM SageMaker oferece suporte a dois métodos de transferência de dados de treinamento: modo de arquivo e modo de pipe. Com o modo de arquivo, os dados de treinamento são obtidos por download para um volume do EBS criptografado, conectado à instância de treinamento antes de treinar o modelo. Com o modo de pipe, os dados são transmitidos diretamente ao algoritmo de treinamento durante sua execução. Esse modo acelera as tarefas de treinamento e reduz o espaço em disco, diminuindo os custos gerais de treinamento de modelos de ML no HAQM SageMaker.

O suporte ao formato CSV com o modo de pipe está disponível em todas as regiões da AWS em que o HAQM SageMaker é oferecido hoje. Você pode ler detalhes adicionais nesta publicação de blog.