Publicado en: Aug 20, 2021

Presentamos Inferencia asíncrona de HAQM SageMaker, una nueva opción de inferencia de HAQM SageMaker que pone en cola solicitudes entrantes y las procesa de forma asíncrona. Esta opción es ideal para inferencias con tamaños de carga grandes (hasta 1 GB) y/o tiempos de procesado largos (hasta 15 minutos) que necesitan procesarse a medida que llegan las solicitudes. Inferencia asíncrona le permite ahorrar en costos al escalar de manera automática el contador de instancias a cero cuando no hay solicitudes que procesar, de modo que solo paga cuando su punto de enlace está procesando solicitudes.

Con la incorporación de la inferencia asíncrona, HAQM SageMaker brinda tres opciones para implementar modelos de machine learning formados para generar inferencias en nuevos datos. La inferencia en tiempo real es adecuada para cargas de trabajo con tamaños de carga de hasta 6 MB y que necesitan ser procesadas con requisitos de baja latencia de milisegundos o segundos. La transformación por lotes es ideal para predicciones sin conexión sobre grandes lotes de datos que están disponibles de manera anticipada. La nueva opción de inferencia asíncrona es ideal para cargas de trabajo en las que los tamaños de solicitud son grandes (hasta 1 GB) y los tiempos de procesamiento de inferencias se miden en minutos (hasta 15 minutos). Los ejemplos de cargas de trabajo para inferencia asíncrona incluyen la ejecución de predicciones para imágenes de alta resolución generadas desde un dispositivo móvil en diferentes intervalos durante el día y proporcionar respuestas en minutos tras recibir una solicitud. Para aquellos casos de uso que pueden tolerar una penalización de arranque en frío, es posible reducir verticalmente el contador de instancias de punto de enlace a cero cuando no haya solicitudes pendientes y escalar horizontalmente a medida que lleguen nuevas solicitudes, de modo que solo pague por la duración de los puntos de enlace que procesan solicitudes de manera activa.

La creación de un punto de enlace de inferencias asíncrono es similar a la de un punto de enlace en tiempo real. Puede utilizar sus modelos de HAQM SageMaker existentes y solo necesita especificar parámetros de configuración específicos de inferencia asíncrona adicionales al crear su configuración de punto de enlace. Para invocar el punto de enlace, es necesario ubicar la carga de solicitud en HAQM S3 y brindar un puntero para la carga de trabajo como parte de la solicitud de invocación. Una vez invocado, HAQM SageMaker pone en cola la solicitud de procesado y devuelve una ubicación de salida como respuesta. Tras el procesamiento, HAQM SageMaker ubica la respuesta de inferencia en la ubicación de HAQM S3 que se brindó anteriormente. Puede elegir de manera opcional recibir notificaciones de error o tarea realizada correctamente mediante Simple Notification Service (SNS).

Para una descripción detallada de cómo crear, invocar y monitorear puntos de enlace de inferencias asíncronas, consulte nuestra documentación, la cual contiene además un bloc de notas de ejemplo para ayudarle a comenzar. Si desea obtener más información acerca de los precios, visite la página de precios de HAQM SageMaker. Inferencia asíncrona de HAQM SageMaker está disponible de manera general en todas las regiones comerciales de AWS donde HAQM SageMaker está disponible, salvo Asia-Pacífico (Osaka), UE (Milán) y África (Ciudad del Cabo).