Chapitre 5. Réalisation d'une EDA avec DuckDB
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
À ce stade, tu devrais avoir une bonne maîtrise des principes de base de DuckDB. Tu as vu comment charger tes bases de données DuckDB à partir de données stockées dans des formats de fichiers tels que CSV et Parquet, et tu as également appris à les charger à partir de serveurs de bases de données tels que MySQL. Dans ce chapitre, nous allons appliquer DuckDB à des scénarios pratiques, en l'utilisant pour effectuer des analyses de données exploratoires.
L'AED est une approche qui permet d'analyser et de visualiser des ensembles de données afin de résumer leurs principales caractéristiques. L'objectif principal de l'AED est de comprendre les modèles, les tendances et les relations au sein des données. Dans l'AED, nous utilisons souvent les techniques suivantes sur nos données :
- Résumé des données
Utilise les statistiques descriptives (telles que moyenne, médiane, écart-type, et plus) pour comprendre la distribution de l'ensemble de données.
- Visualisation des données
Utilise des bibliothèques telles que Matplotlib et Seaborn pour tracer divers types de graphiques (tels que des diagrammes à barres, des diagrammes circulaires, et plus encore) afin d'inspecter visuellement la distribution des données et les relations entre les différents types de données.
- Identification des tendances
Identifie les modèles, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access