Statistiques pratiques pour les scientifiques des données, 2e édition.
by Peter Bruce, Andrew Bruce, Peter Gedeck
Chapitre 2. Données et distributions d'échantillonnage
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Une idée reçue veut que l'ère du big data signifie la fin d'un besoin d'échantillonnage.En fait, la prolifération de données de qualité et de pertinence variables renforce le besoin d'échantillonnage en tant qu'outil permettant de travailler efficacement avec une variété de données et de minimiser les biais. Même dans le cadre d'un projet big data, les modèles prédictifs sont généralement développés et pilotés avec des échantillons.Les échantillons sont également utilisés dans des tests de différentes sortes (par exemple, pour comparer l'effet de la conception des pages web sur les clics).
Lafigure 2-1 présente un schéma qui sous-tend les concepts que nous aborderons dans ce chapitre, à savoir les données et les distributions d'échantillonnage. Le côté gauche représente une population qui, en statistique, est supposée suivre une distribution sous-jacente mais inconnue. Tout ce dont nous disposons, ce sont les données de l 'échantillon et leur distribution empirique, représentées sur le côté droit. Pour passer du côté gauche au côté droit, on utilise une procédure d'échantillonnage (représentée par une flèche). Les statistiques traditionnelles se concentraient beaucoup sur le côté gauche, en utilisant une théorie basée sur des hypothèses fortes concernant la population. Les statistiques modernes ...