Capítulo 5. Realizar EDA con DuckDB
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Llegados a este punto, ya deberías dominar bastante bien los conceptos básicos de DuckDB. Has visto cómo cargar tus bases de datos DuckDB a partir de datos almacenados en formatos de archivo como CSV y Parquet, y también has aprendido a cargarlos desde servidores de bases de datos, como MySQL. En este capítulo, aplicaremos DuckDB en escenarios prácticos, utilizándolo para realizar análisis exploratorios de datos.
EDA es un enfoque para analizar y visualizar conjuntos de datos con el fin de resumir sus características principales. El objetivo clave del AED es comprender los patrones, tendencias y relaciones de los datos. En EDA, a menudo utilizamos las siguientes técnicas con nuestros datos:
- Resumen de datos
Utiliza estadísticas descriptivas (como media, mediana, desviación típica, etc.) para comprender la distribución del conjunto de datos.
- Visualización de datos
Utiliza bibliotecas como Matplotlib y Seaborn para trazar diversos tipos de gráficos (como gráficos de barras, de tarta, etc.) para inspeccionar visualmente la distribución de los datos y las relaciones entre los distintos tipos de datos.
- Identificación de tendencias
Identifica los patrones, las tendencias y las anomalías de dentro de los datos y proporciona información sobre los posibles factores que afectan a estas observaciones.
En este capítulo, aprenderás a utilizar ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access