Mise en route avec HAQM EMR

Comment utiliser EMR

1

Développement de votre application de traitement de données

Vous pouvez utiliser Java, Hive (un langage de type SQL), Pig (un langage de traitement de données), Cascading, Ruby, Perl, Python, R, PHP, C++, ou Node.js. HAQM EMR propose des exemples de codes et didacticiels pour que vous soyez rapidement opérationnel.

2

Chargement de votre application et de vos données dans HAQM S3

Si vous devez charger un volume important de données, il peut être judicieux d’utiliser AWS Import/Export Snowball pour charger des données à l’aide de périphériques de stockage physiques ou AWS Direct Connect pour établir une connexion réseau dédiée de votre centre de données vers AWS. Si vous préférez, vous pouvez également écrire vos données directement dans un cluster en cours d'exécution.

3

Configuration et lancement votre cluster

En utilisant la console de gestion AWS, l’AWS CLI, les kits SDK ou les API, indiquez le nombre d’instances HAQM EC2 à allouer dans votre cluster, les types d’instances à utiliser (standard, mémoire élevée, CPU élevé, E/S élevées, etc.), les applications à installer (Apache Spark, Apache Hive, Apache HBase, Presto, etc.), ainsi que l’emplacement de votre application et de vos données. Vous pouvez utiliser les actions d’amorçage pour installer des logiciels supplémentaires ou modifier les paramètres par défaut.

4

Surveillance du cluster

Vous pouvez surveiller l'état et la progression du cluster à l'aide de la console de gestion, de l'interface de ligne de commande, des kits de SDK ou des API. EMR s’intègre à HAQM CloudWatch pour la surveillance/les alarmes, et prend en charge les outils de surveillance courants tels que Ganglia. Vous pouvez augmenter ou diminuer la capacité du cluster à tout moment, afin de gérer plus ou moins de données. Pour le dépannage, vous pouvez utiliser l’interface graphique de débogage simple de la console.

5

Récupération de la sortie

Récupérez la sortie d'HAQM S3 ou de HDFS sur le cluster. Visualisez les données avec des outils tels qu’HAQM QuickSight, Tableau et MicroStrategy. HAQM EMR arrête automatiquement le cluster une fois le traitement terminé. Vous pouvez également laisser le cluster s'exécuter et lui attribuer du travail supplémentaire.

Prêt à lancer votre premier cluster ?

Cliquez ici pour lancer un cluster à l’aide de la console de gestion HAQM EMR. Sur la page Create Cluster, accédez à la configuration avancée du cluster, puis cliquez sur le bouton gris « Configure Sample Application » situé en haut à droite si vous souhaitez exécuter un exemple d'application avec des exemples de données.

Formation et aide

Avez-vous besoin d'aide pour mener une démonstration de faisabilité ou ajuster vos applications EMR ? AWS dispose d'une équipe d'assistance internationale spécialisée en EMR. N'hésitez pas à nous contacter si vous souhaitez obtenir des informations supplémentaires sur les contrats de support payants à court terme (deux à six semaines).

La formation big data sur AWS est conçue pour vous apprendre, via des exercices pratiques, à utiliser les solutions HAQM Web Services pour des charges de travail de big data. Vous découvrirez comment exécuter des tâches HAQM EMR afin de traiter des données grâce au vaste écosystème d'outils Hadoop tels que Pig et Hive. Vous apprendrez également à créer des environnements de Big Data dans le cloud en utilisant HAQM DynamoDB et HAQM Redshift, à tirer parti d'HAQM Kinesis et à appliquer au mieux les bonnes pratiques afin de concevoir des environnements de Big Data sécurisés, économiques et offrant d'excellentes performances d'analyse. Pour en savoir plus sur la formation big data, cliquez ici.

La formation « Scale Unlimited » offre une formation sur site personnalisée aux entreprises souhaitant apprendre rapidement à utiliser EMR et d'autres technologies Big Data. Pour en savoir plus, cliquez ici.