Publicado: Sep 19, 2022

Temos o prazer de anunciar que o HAQM EMR no EKS versão 6.7.0 e posteriores inclui a capacidade de executar scripts de Apache Spark SQL usando a API StartJobRun. O Spark SQL é um módulo de processamento de dados estruturados do Spark. Ao contrário da API DataFrame do Spark, as interfaces de Spark SQL fornecem ao Spark mais informações sobre a estruturas de dados e computação em execução. O Spark SQL usa essas informações internamente para executar otimizações adicionais. Com este lançamento, você pode executar consultas de Spark SQL e pipelines de ETL baseadas em Spark SQL diretamente pela API StartJobRun do HAQM EMR no EKS.

Usuários do HAQM EMR no EKS usam a API StartJobRun para iniciar trabalhos do Spark. Anteriormente, para executar scripts de Spark SQL, os usuários precisavam incorporar scripts de SQL em interfaces como PySpark, que exigiam que os usuários modificassem os scripts de Spark SQL existentes. Como parte deste lançamento, um novo driver para trabalhos de Spark SQL foi adicionado à imagem básica do HAQM EMR no EKS, usada pelos usuários para executar trabalhos do Spark. Agora, os usuários podem fornecer arquivos de ponto de entrada de SQL para execução de consultas do Spark SQL no HAQM EMR no EKS usando diretamente a API StartJobRun, sem precisar modificar scripts existentes do Spark SQL. Esse recurso está disponível em todas as regiões em que o HAQM EMR no EKS é oferecido.

Para saber mais sobre como executar scripts do Spark SQL no HAQM EMR no EKS, consulte a página de documentação.