Capítulo 2. Datos y distribuciones muestrales

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Una idea popular errónea sostiene que la era de los big data significa el fin de la necesidad del muestreo.De hecho, la proliferación de datos de calidad y relevancia variables refuerza la necesidad del muestreo como herramienta para trabajar eficazmente con una variedad de datos y minimizar los sesgos. Incluso en un proyecto de big data, los modelos predictivos suelen desarrollarse y probarse con muestras.Las muestras también se utilizan en pruebas de diversos tipos (por ejemplo, comparando el efecto de los diseños de las páginas web sobre los clics).

La figura 2-1 muestra un esquema en el que se basan los conceptos que trataremos en este capítulo: datos y distribuciones muestrales. El lado izquierdo representa una población que, en estadística, se supone que sigue una distribución subyacente pero desconocida. Todo lo que tenemos son los datos muestrales y su distribución empírica, que se muestra en el lado derecho. Para pasar del lado izquierdo al derecho, se utiliza un procedimiento de muestreo (representado por una flecha). La estadística tradicional se centraba mucho en el lado izquierdo, utilizando una teoría basada en fuertes suposiciones sobre la población. La estadística moderna se ha desplazado al lado derecho, donde no se necesitan tales suposiciones.

En general, los científicos de datos no deben preocuparse ...

Get Estadística Práctica para Científicos de Datos, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.