Blog de HAQM Web Services (AWS)

Category: AWS Big Data

Construyendo un Data Lake para Universidades con AWS

Por Joseph Rodríguez, Arquitecto de Soluciones en HAQM Web Services para Sector Público en Chile. Introducción En la era digital, las universidades están cada vez más conscientes del poder de los datos para mejorar la experiencia educativa y la eficiencia operativa. Sin embargo, muchas instituciones se enfrentan al desafío de manejar y analizar grandes volúmenes […]

Cree un patrón de arquitectura de Data Mesh usando HAQM DataZone

Escrito por Maddyzeth Ariza, Data Architect; Diego Valencia, Data Architect y Lesly Reyes, Telco Solutions Architect Las organizaciones buscan constantemente optimizar el uso de sus datos. A menudo, enfrentan desafíos como el acceso fragmentado y la capacidad limitada para descubrir datos valiosos. La arquitectura de Data Mesh surge como una solución convincente, que promueve un […]

Gestión de datos aumentada – Utilizando Glue Databrew para la limpieza automatizada de datos

Por: Janete Ribeiro Especialista en Analítica en HAQM Web Services (AWS) para América Latina y Branko Straub Arquitecto de Soluciones en HAQM Web Services (AWS) para Sector Público en Chile. “Augmented Data Management” (ADM), ¿sería solo otra palabra de moda del momento, en el mundo de la tecnología? Lo que llamamos “Augmented Data Management” o […]

Cree tableros en Microsoft Power BI utilizando el conector de HAQM Athena

Por Lesly Reyes, Telco Specialist Solutions Architect   HAQM Athena permite realizar consultas interactivas sobre datos almacenados en HAQM S3 mediante el estándar SQL. Una de las características de Athena es que solo se paga por las consultas que ejecuta, debido a que no utiliza servidor por lo que no es necesario desplegar infraestructura para visualizar sus datos. […]

Mejores prácticas para ejecutar Apache Kafka en AWS

Por Prasad Alle, Consultor Senior de Big Data de AWS. NOTA: Esta publicación en el blog fue escrita antes del lanzamiento de HAQM MSK, un servicio totalmente administrado, de alta disponibilidad y seguro para Apache Kafka. Te recomendamos usar HAQM MSK en lugar de ejecutar tu propio clúster Apache Kafka en HAQM EC2. Si necesitas […]

Documents being fed to a funnel for filtering

Ahorra dinero y tiempo en tus consultas con HAQM Athena

HAQM Athena permite consultar datos en HAQM S3 mediante SQL, sin tener que gestionar servidores y pagando en función de cuántos datos leemos en cada consulta. Utilizando técnicas como la compresión de ficheros, el particionado de los datos, o los formatos de fichero especialmente diseñados para analítica de datos, reduciremos significativamente la cantidad de datos que escaneamos, ahorrando así tanto en nuestra factura como en el tiempo de respuesta.

En este artículo demostraremos cómo diferentes optimizaciones en nuestros ficheros en S3 afectan al rendimiento y al coste de nuestras consultas en Athena. Estas técnicas también nos ayudarían si estamos analizando datos con HAQM Redshift Spectrum o con HAQM EMR.

El camino hacia lo administrado: el caso de HAQM Elasticsearch Service

Por Kevin Fallis, Arquitecto Especialista en Búsqueda de Soluciones de AWS   Antes de unirme a AWS, lideré un equipo de desarrollo que creaba soluciones de publicidad móvil con Elasticsearch. Elasticsearch es un popular motor de búsqueda y análisis de código abierto para análisis de registros, monitoreo de aplicaciones en tiempo real, análisis de flujos […]

Cómo Verizon Media Group migró de Apache Hadoop y Spark de su centro de datos a HAQM EMR

Este es un artículo de los autores invitados por Verizon Media Group   En Verizon Media Group (VMG), uno de los principales problemas a los que nos enfrentábamos era la dificultad de ampliar la capacidad de informática en el tiempo que se requiere para adquirir hardware, lo que a menudo llevaba meses. No era rentable […]

Usando Python shell y Pandas en AWS Glue para procesar conjuntos de datos pequeños y medianos

Angelo Carvalho es Arquitecto de Big Data Solutions Architect para HAQM Web Services AWS Glue es un servicio de ETL totalmente administrado. Entre muchos recursos, este ofrece un ambiente de ejecución sin servidor para ejecutar sus trabajos de ETL. Muchos clientes de AWS están usando el ambiente Spark de AWS Glue para ejecutar tales tareas, […]