Statistiques pratiques pour les scientifiques des données, 2e édition.
by Peter Bruce, Andrew Bruce, Peter Gedeck
Chapitre 1. Analyse exploratoire des données
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Ce chapitre se concentre sur la première étape de tout projet de science des données : l'exploration des données.
Les statistiques classiques se concentrent presque exclusivement sur l'inférence, un ensemble parfois complexe de procédures permettant de tirer des conclusions sur de grandes populations à partir de petits échantillons. En 1962, John W. Tukey(Figure 1-1) a appelé à une réforme des statistiques dans son article fondateur "L'avenir de l'analyse des données" [Tukey-1962]. Il a proposé une nouvelle discipline scientifique appelée analyse des données, dont l'inférence statistique n'est qu'une des composantes. Tukey a tissé des liens avec les communautés de l'ingénierie et de l'informatique (il a inventé les termes bit, abréviation de binary digit, et software), et ses principes originaux sont étonnamment durables et font partie des fondements de la science des données.Le domaine de l'analyse exploratoire des données a été établi avec le livre désormais classique de Tukey, Exploratory Data Analysis, publié en 1977 [Tukey-1977]. Tukey a présenté des graphiques simples (par exemple, des diagrammes en boîte, des diagrammes de dispersion) qui, avec des statistiques sommaires (moyenne, médiane, quantiles, etc.), aident à brosser un tableau d'un ensemble de données.
Avec la disponibilité immédiate de la ...