Publicado en: Dec 22, 2017

Ahora puede usar Apache Spark 2.2.1, Apache Hive 2.3.2 y la integración de HAQM SageMaker con Apache Spark en HAQM EMR versión 5.11.0. Spark 2.2.1 y Hive 2.3.2 incluyen varias correcciones de errores y mejoras. HAQM SageMaker Spark es una biblioteca de Spark de código abierto para HAQM SageMaker, un servicio totalmente administrado que le permite compilar, entrenar e implementar modelos de aprendizaje automático según sus necesidades. Le permite intercalar etapas de Spark y etapas que interactúen con HAQM SageMaker en sus canalizaciones de ML de Spark, con lo que podrá entrenar modelos mediante Spark DataFrames en HAQM SageMaker con algoritmos de aprendizaje automático facilitados por HAQM como agrupación en clústeres K-Means o XGBoost.

Puede crear un clúster de HAQM EMR con la versión 5.11.0 eligiendo la etiqueta de versión “emr-5.11.0” de la consola de administración de AWS, la CLI de AWS o el SDK. Puede seleccionar Spark y Hive para instalar estas aplicaciones en el clúster. La biblioteca de HAQM SageMaker Spark se incluye automáticamente cuando instala Spark. Consulte la documentación de HAQM EMR para obtener más información acerca de la versión 5.11.0, Spark 2.2.1, Hive 2.3.2 y el uso de HAQM SageMaker con Spark

HAQM EMR versión 5.11.0 está disponible en todas las regiones admitidas con HAQM EMR