Capítulo 5. Explorar el conjunto de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el capítulo anterior, demostramos cómo ingerir datos en la nube con Amazon Athena y Redshift. Amazon Athena ofrece consultas SQL ad hoc y sin servidor para datos en S3 sin necesidad de configurar, escalar ni administrar ningún clúster. Amazon Redshift proporciona el rendimiento de consulta más rápido para las cargas de trabajo de informes empresariales e inteligencia de negocios, en particular las que implican SQL complejo con múltiples uniones y subconsultas a través de muchas fuentes de datos, incluyendo bases de datos relacionales y archivos planos. Creamos un mapeo de datos-catálogo para nuestro lago de datos basado en S3 utilizando AWS Glue Catalog. Ejecutamos consultas ad hoc en nuestro lago de datos con Athena. Y ejecutamos consultas en nuestro almacén de datos con Amazon Redshift.

También echamos un primer vistazo a nuestro conjunto de datos. Según hemos sabido, el conjunto de datos de opiniones de clientes de Amazon consta de más de 150 millones de opiniones de clientes sobre productos de 43 categorías de productos diferentes en el sitio web Amazon.com desde 1995 hasta 2015. El conjunto de datos contiene el texto real de las reseñas de los clientes junto con metadatos adicionales. Se presenta en dos formatos valores separados por tabuladores (TSV) basados en filas y Apache Parquet basado en columnas.

En este ...

Get Ciencia de datos en AWS now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.