Publié le: Dec 21, 2020

HAQM SageMaker Studio est le premier environnement de développement entièrement intégré (IDE) dédié au machine learning. D'un simple clic, les scientifiques des données et les développeurs peuvent rapidement lancer les blocs-notes de SageMaker Studio pour explorer et préparer des ensembles de données afin de créer, d'entraîner et de déployer des modèles de machine learning dans un seul et même volet. HAQM EMR est un service Web qui facilite le traitement rapide et économique de grandes quantités de données. Dès aujourd'hui, les clients peuvent utiliser les blocs-notes de Studio pour se connecter facilement et en toute sécurité aux clusters HAQM EMR et préparer de grandes quantités de données pour l'analyse et la création de rapports, l'entraînement de modèles ou l'inférence. 

La préparation des données est une étape critique dans le flux de travail de machine learning. Avec SageMaker Studio, vous avez accès à une gamme d'outils pour la préparation des données selon vos préférences. Si vous préférez une interface visuelle, vous pouvez utiliser HAQM SageMaker Data Wrangler pour vous connecter à HAQM S3, HAQM RedShift ou HAQM Athena pour accéder, visualiser et analyser les données de SageMaker Studio. Si vous préférez écrire du code, vous pouvez également utiliser les blocs-notes de SageMaker Studio pour préparer des données de manière interactive à l'aide de bibliothèques et de SDK, ou traiter de grandes quantités de données par lots en utilisant HAQM SageMaker Processing avec le conteneur Spark intégré. Toutefois, si vous préférez connecter les blocs-notes de Studio à des clusters EMR existants pour accéder aux données et les traiter, vous devez configurer manuellement l'environnement, apporter votre propre noyau Sparkmagic, configurer les informations du cluster cible et installer des outils tels que Kerberos pour l'authentification, avant d'exécuter vos tâches Spark ou d'interroger vos tables Hive.

HAQM SageMaker Studio est désormais doté d'outils intégrés qui permettent de connecter rapidement et facilement et en toute sécurité votre bloc-notes à un cluster EMR pour le traitement de grandes quantités de données. Vous pouvez créer un bloc-notes de Studio à partir d'une image SageMaker intégrée avec le noyau PySpark, utiliser les commandes intégrées pour vous connecter à un cluster EMR, et commencer à interroger, analyser et traiter des données en quelques étapes. Pour plus de sécurité, vous pouvez vous connecter aux clusters EMR en utilisant l'authentification Kerberos. La fonctionnalité est désormais disponible dans toutes les régions AWS où HAQM SageMaker Studio est disponible. Pour plus d'informations, consultez la documentation d'HAQM SageMaker Studio