Capítulo 4. Comprender la distribución normal mediante histogramas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Cuando se trata de estadística, hay algunos conceptos básicos que debes conocer y comprender. En el Capítulo 1 te he presentado algunas de estas ideas, como la significación estadística, los valores p y las pruebas de hipótesis. Sin embargo, uno de los conceptos más importantes que debes conocer y comprender son las distintas formas en que pueden distribuirse los datos. Si no sabes cómo se distribuyen tus datos, podrías estar haciendo algunas suposiciones erróneas en tu análisis, lo que puede conducir a conclusiones erróneas e hipótesis falsas.
En este capítulo, te guiaré a través de algunas formas en que pueden distribuirse tus datos, te proporcionaré ejemplos de algunos tipos diferentes de distribución y, a continuación, te mostraré cómo visualizar la distribución en Tableau mediante histogramas.
Tipos de distribución
En los negocios o en la mayoría de los análisis cotidianos, te encontrarás con diferentes formas de distribución de los datos. Por ejemplo, si lanzara una moneda al aire 1.000 veces, registrara los datos y los visualizara, probablemente tendría dos columnas (cara y cruz) que estarían distribuidas casi exactamente igual debido a la probabilidad del 50/50 de obtener cualquiera de las dos caras. Otro ejemplo: si registro la altitud de un avión de pasajeros que despega y alcanza los 36.000 pies, los datos crecerían exponencialmente con el tiempo y se estancarían lentamente en algún punto. Y otro ejemplo: si registrara la altura de todos los adultos de una gran sala de conferencias, probablemente acabaría con un conjunto de datos distribuidos normalmente.
A nuestro alrededor, podemos registrar datos y visualizarlos para revelar distribuciones únicas. En los negocios ocurre exactamente lo mismo. Si visualizas la distribución del beneficio por producto, las ventas a lo largo del tiempo, los pedidos por cliente, etc., encontrarás y observarás distribuciones diferentes para cada conjunto de datos. He aquí algunos ejemplos comunes.
Distribución Uniforme
La distribución uniforme es cuando tus datos se distribuyen por igual en tu conjunto de datos, como se muestra en la Figura 4-1.
La mayoría de las veces, cuando se recogen datos, vendrán con algún tipo de varianza. Por eso, es poco probable que se produzca esta forma de distribución en la mayoría de las situaciones. Sin embargo, para darte un ejemplo, imagina que estuvieras registrando cuántos minutos ocurren cada hora o trazando la probabilidad de sacar un número del 1 al 6 en un dado de seis caras. En estos casos, acabarías con un conjunto de datos distribuidos por igual.
Distribución Bernoulli
Una distribución de Bernoulli es cuando recoges datos con sólo dos resultados posibles, como se muestra en la Figura 4-2. La distribución de Bernoulli desempeña un papel fundamental en la teoría de la probabilidad y la estadística. Llamada así por el matemático suizo Jacob Bernoulli, esta distribución constituye la base de muchos modelos estadísticos y sirve como concepto fundamental en diversos campos.
A menudo, los datos se recogen en formatos muy sencillos como éste. Los ensayos clínicos, las encuestas o el estado del servidor pueden registrarse en este formato booleano. Booleano significa que algo tiene dos resultados: 0 ó 1 en binario, sí o no, verdadero o falso, el servidor funciona o no funciona, etc.
Distribución exponencial
La distribución exponencial se produce cuando tus datos crecen exponencialmente a medida que se recogen, y luego empiezan a disminuir, como se muestra en la Figura 4-3.
La distribución exponencial puede darse en un conjunto de datos cuando los datos recogidos tienen un rápido aumento o disminución y luego se estabilizan. Piensa en la altitud de un avión cuando asciende hasta su altitud de crucero. El avión empieza subiendo rápidamente al despegar y luego disminuye a medida que se nivela.
Distribución normal
La distribución normal sigue una curva en forma de campana , como se muestra en la Figura 4-4. A menudo se denomina distribución normal, curva de campana o distribución de Gauss.
Este tipo de distribución se da cuando los datos tienen una forma simétrica sin sesgo. Por ponerte un ejemplo, si midieras la estatura de los estudiantes universitarios de un campus, verías cómo se desarrolla este patrón. Habría unos pocos estudiantes más bajos que la media, pero la mayoría estaría en torno a la media nacional, y algunos estudiantes serían más altos que la media.
Para darte una explicación matemática de una distribución normal, veamos la regla empírica: 68-95-99,7. En una distribución normal, aproximadamente el 68% de los datos cae dentro de 1 desviación típica de la media, el 95% cae dentro de 2 desviaciones típicas, y el 99,7% cae dentro de 3 desviaciones típicas, como se ilustra en la Figura 4-5.
Es muy importante comprender esta regla, que desempeñará un papel importante en la detección de valores atípicos en los Capítulos 6 y 7. Además, muchos de los modelos que se construyen de forma nativa en Tableau se emplean bajo el supuesto de que los datos se distribuyen normalmente.
Distribución normal y asimetría
Para profundizar en la distribución normal, analicemos qué significa tener una distribución normal. Si un conjunto de datos es perfectamente normal, significa que la media, la moda y la mediana son iguales entre sí. He aquí las definiciones de esos términos:
- Media
- Modo
-
El número que aparece con más frecuencia en nuestro conjunto de datos
- Mediana
-
El número medio de un conjunto de datos cuando se ordena de menor a mayor
Considera este conjunto de datos: 3,4,5,5,6,6,7,7,7,8,8,9,9,10,11. Siguiendo las definiciones de media, moda y mediana, tendrías una distribución normal perfectamente distribuida, en la que la media sería igual a 7, la moda sería igual a 7 y la mediana sería igual a 7.
Si visualizas ese conjunto de datos, tendrías una distribución normal similar a la de la Figura 4-6.
Como puedes ver en la Figura 4-6, moda = media = mediana, por lo que todos esos valores caen directamente en el centro de la curva simétrica. Para que este concepto quede más claro, piensa en el ejemplo que puse antes sobre el muestreo de la altura de los estudiantes universitarios de un campus. Tendrías algunos estudiantes que serían extremadamente altos (como los del equipo de baloncesto) y otros que serían naturalmente más bajos. Sin embargo, la mayoría de los estudiantes estarían en torno a la estatura media nacional.
Piensa también en tus propios entornos personales en la escuela o el trabajo. Si registraras un número decente de estaturas de adultos, probablemente acabarías con un conjunto de datos con una distribución normal. Aunque la distribución normal se da a menudo, sería raro que tus datos se distribuyeran perfectamente así, simplemente debido a las varianzas naturales. En su lugar, lo más probable es que veas cierta asimetría.
Comprender la asimetría
La asimetría se produce cuando la mayoría de los datos se consolidan hacia un lado de la curva. Para darte un ejemplo visual, analicemos primero una distribución sesgada a la izquierda, como se muestra en la Figura 4-7.
Matemáticamente, para ser asimétrica a la izquierda, la media es menor que la mediana, que es menor que la moda. Naturalmente, es probable que tus ojos se fijen en los datos de la parte derecha de la Figura 4-7. Tal vez te preguntes: ¿Esto no es asimétrico a la derecha? En lo que respecta a la asimetría, deberías interesarte más por la causa de que los datos estén sesgados. En este caso, hay algún valor (o valores) extremo en el lado izquierdo que está provocando que los datos estén sesgados. Por eso hay una larga "cola" en el lado izquierdo y por eso este tipo de asimetría se denomina asimétrica a la izquierda.
Ahora analicemos lo contrario, que es estar sesgado a la derecha, como se muestra en la Figura 4-8.
Para ser asimétrica, la moda es menor que la mediana, que es menor que la media. Como puedes ver, la mayoría de los datos están agrupados a la izquierda, con una larga cola a la derecha. Por ponerte un ejemplo, imagina que los datos que recogieras fueran el precio de los coches vendidos en Estados Unidos. Probablemente observarías algunos coches muy baratos, pero la mayoría de los coches vendidos estarían en torno al precio medio nacional (30.000-50.000 $). Sin embargo, también tendrías algunos coches vendidos a precios extremadamente altos que te darían este efecto de cola larga. Lo más probable es que no se vendieran muchos vehículos a esos precios altos; sin embargo, los precios alejarían nuestra media de la mediana.
Recuerda que cuando estés pensando en la asimetría, deberías preocuparte más por la causa de la asimetría. Esto también te ayudará a recordar el nombre correcto de la asimetría izquierda y derecha.
Contabilización de la asimetría
Muchos modelos funcionan con el supuesto de que los datos que tienes se distribuyen normalmente. Dicho esto, los datos sesgados pueden desvirtuar los resultados de estos modelos, dando resultados estadísticamente significativos cuando no los hay o sugiriendo que no hay un resultado estadísticamente significativo cuando en realidad sí lo hay. Por esta razón, necesitas saber cómo tener en cuenta la asimetría transformando los datos de alguna manera.
Esperemos que entiendas cómo puede producirse la asimetría, y tal vez ya estés pensando en formas de limpiar tus datos para que tengan una distribución más normal. Por ejemplo, en el ejemplo de los coches, podrías simplemente excluir los coches más caros de tu análisis o segmentarlos en un análisis separado.
Hay muchas formas de tener en cuenta la asimetría, y cada una de ellas tiene sus pros y sus contras. Aquí tienes algunas técnicas que puedes aplicar a los datos asimétricos para que se distribuyan normalmente para tu análisis:
- Transformación logarítmica
-
Una transformación habitual es tomar el logaritmo de los datos. Esto devuelve los valores logarítmicos de los datos y, esencialmente, acerca los valores extremos entre sí. Esto te dará normalmente una distribución normal con la que puedes trabajar para modelar. En Tableau, puedes utilizar la función LOG y aplicarla a la medida que estés analizando.
Ventajas: Puede que no tengas que eliminar ninguno de tus datos, ya que esta técnica conseguirá que los valores se aproximen lo suficiente como para dejarlo todo en la mayoría de los casos.
Contras: Es difícil explicar e interpretar tus datos después de la transformación.
- Eliminar valores extremos
-
Esto implicaría filtrar todos los valores extremos o atípicos de tu análisis. En Tableau, puedes utilizar simplemente un filtro condicional para hacerlo. O puedes utilizar la función Explicar datos de Tableau para encontrar las observaciones exactas que causan los valores extremos y eliminarlas.
Ventajas: Es muy fácil de explicar a tus interlocutores y de documentar para tus colegas.
Contras: Podrías excluir información muy valiosa de tu análisis o crear sesgos.
- Otras transformaciones estadísticas
-
Hay muchas más técnicas de transformación que son más metódicas y científicas. Algunos ejemplos son la winsorización y las transformaciones Box-Cox.
Pros: Las suposiciones que haces están claramente definidas y son las esperadas en el sector.
Contras: Dar detalles de estas técnicas de transformación puede ser difícil de entender para algunas partes interesadas.
Cómo visualizar distribuciones en Tableau mediante histogramas
Ahora que ya conoces los distintos tipos de distribuciones, déjame mostrarte cómo visualizar la distribución de tus datos en Tableau.
Para empezar, conéctate al conjunto de datos Muestra - Supertienda. Se trata de los datos de ejemplo predeterminados que vienen con cualquier versión de Tableau y aparecerán en la esquina inferior izquierda de la pantalla de conexión a la fuente de datos como fuente de datos. Una vez conectado, tienes que crear una bandeja en Tableau. Las ubicaciones se utilizan principalmente para convertir medidas en miembros discretos de una dimensión. Esto es clave cuando intentas determinar la distribución de los datos, porque quieres que cada barra del histograma represente un grupo de valores.
Para darte un ejemplo, la Tabla 4-1 es una tabla de datos que se han dividido en intervalos de 20.
Pide | Beneficios | Cubo de beneficios |
---|---|---|
US-0001 | $5.00 | 0 |
US-0002 | $10.00 | 0 |
US-0003 | $15.00 | 0 |
US-0004 | $25.00 | 20 |
US-0005 | $35.00 | 20 |
US-0006 | ($5.00) | -20 |
US-0007 | ($25.00) | -40 |
En cada pedido, Tableau asigna una casilla al valor bruto en incrementos de 20. Así, los tres primeros valores caen entre 0 y 20, lo que significa que su ubicación es 0. Los pedidos 4 y 5 tienen un beneficio que cae entre 21 y 40, por lo que se asignan a la ubicación 20, y así sucesivamente.
De hecho, Tableau te ayuda en proporcionándote un contenedor preconstruido para que lo utilices en el conjunto de datos Muestra - Supertienda llamado Beneficio (bin). Voy a explicarte cómo crear uno desde cero, pero si prefieres utilizar ese contenedor y avanzar, puedes hacerlo libremente.
Para crear un contenedor, haz clic con el botón derecho del ratón sobre Profit y pasa el ratón por encima de la opción Crear para elegir Contenedores en el menú (ver Figura 4-9).
Se abrirá un nuevo cuadro de diálogo con información sobre la medida de beneficio, como se muestra en la Figura 4-10.
Puedes ver que Tableau asignará un valor de "Tamaño de bins" automáticamente. En este caso, es 283, lo que significa que cada barra del histograma "agrupará" los valores de beneficio en estos incrementos. Como ejemplo más claro, si un producto generó 200 $ de beneficios, se agruparía con valores comprendidos entre 0 y 283 $. Si un producto generó 400 $ de beneficios, se agruparía con valores comprendidos entre 284 y 567 $.
Como puedes imaginar, cuanto mayor sea el tamaño de la bandeja, más anchas y escasas serán las barras, mientras que los tamaños de bandeja más pequeños te proporcionan barras más finas y abundantes. Puede ser útil probar varios tamaños de recipiente para tener una mejor visión de la distribución de tus datos.
De momento, vamos a utilizar la cantidad de papelera sugerida y la afinaremos más adelante. Antes de continuar, quiero explicarte el resto de información que aparece en este menú. Puedes ver un valor Mín y Máx; son los valores de beneficio mínimo y máximo de todos los registros del conjunto de datos. También puedes ver un valor CntD, que significa recuento distinto. Se trata de un recuento distinto de todos los importes de beneficio individuales de los datos, por lo que tengo 7.545 valores distintos en este conjunto de datos. El valor Dif es sólo la diferencia entre los valores mínimo y máximo .
Cuando hayas terminado, haz clic en Aceptar. Esto va a crear una nueva dimensión llamada "Beneficio (bin) 2" en el panel de Datos. Arrastra esa dimensión a la repisa Columnas y luego arrastra la medida Pedidos (Recuento) a la repisa Filas, que puedes ver en la Figura 4-11.
Esto te da un bonito histograma que parece tener una distribución normal, que puedes ver en la Figura 4-12.
Puedes ver que la mayoría de las CNT(Órdenes) generan beneficios que oscilan entre -849 $ y 849 $ aproximadamente. A alto nivel, esto parece muy informativo, pero examinémoslo un poco más de cerca. Modifiquemos el tamaño de la bandeja de 283 a 20. De este modo, los datos se agruparán a un nivel más granular. Para ello, haz clic con el botón derecho del ratón en la dimensión "Beneficio (bin) 2" y cambia el "Tamaño de los bins" a 20, como se muestra en la Figura 4-13, luego haz clic en Aceptar.
Como he dicho antes, cuanto menor sea el tamaño de la bandeja, más finas y abundantes serán las barras. Editando el tamaño de la bandeja de beneficios, ahora puedes comparar la Figura 4-12 con lo que se muestra en la Figura 4-14.
Puedes ver que algunas órdenes generaron bins de beneficios a ambos extremos, tanto a la izquierda como a la derecha. Como analista, quizá quieras excluir estos valores extremos y comprobar los bins con más detalle para asegurarte de que se calculan correctamente.
Para demostrarlo, vamos a centrarnos en los pedidos que están entre -300$ y 300$. Filtra a estas ubicaciones haciendo clic en la ubicación de -300$ en el eje x; luego, manteniendo pulsada la tecla Mayús, haz clic en la ubicación de 300$, lo que resaltará esa ubicación y todas las demás. Con esas casillas seleccionadas, haz clic en Mantener sólo en los botones de comando de la información sobre herramientas, como se muestra en la Figura 4-15.
Hay muchas otras formas de aplicar este filtro. Por ejemplo, también podrías arrastrar "Beneficio (bin) 2" a la estantería Filtros y aplicar un filtro de dimensión. Así obtendrías una vista parecida a la de la Figura 4-16.
Aquí puedes ver que los datos siguen una distribución normal. En este conjunto de datos, hay algunas órdenes que generaron beneficios negativos y otras que generaron beneficios positivos. Pero, ¿qué aspecto tendrían los datos si estuvieran sesgados? Para mostrarte un buen ejemplo de esto, vamos a crear una bandeja de ventas.
Empieza haciendo clic con el botón derecho del ratón en Ventas, navega hasta Crear y luego selecciona Ubicaciones, como se muestra en la Figura 4-17).
Se abrirá el menú Editar Bins, como se muestra en la Figura 4-18.
Para este ejemplo, cambia el "Tamaño de las ubicaciones" a 100 y haz clic en Aceptar para cerrar el menú. Ahora crea una hoja nueva y arrastra el nuevo campo "Ventas (ubicación)" a la bandeja Columnas y Pedidos (Recuento ) a la bandeja Filas, como se muestra en la Figura 4-19.
Puedes ver que cambiar el tamaño de la bandeja a 100 te ha dado una distribución sesgada a la derecha. Si piensas en los datos de ventas de forma lógica, esto tiene sentido. Hay pocos casos en los que una empresa tenga ventas negativas por un pedido. Eso significaría esencialmente que la empresa pagó al cliente por el producto. Dicho esto, tampoco tendría sentido intentar aplicar una transformación a estos datos. Tendrías que aplicar un modelo no paramétrico o un modelo que no asuma una distribución normal para obtener los mejores resultados al trabajar con esta medida.
Como he mencionado anteriormente, hay algunos modelos que requieren que los datos estén distribuidos normalmente para funcionar correctamente. Sin embargo, también hay otros modelos que funcionan correctamente aunque tus datos no estén distribuidos normalmente. Trataré algunos de esos modelos en el Capítulo 7. Para introducirte en la idea, hablemos brevemente de los modelos paramétricos y los modelos no paramétricos.
Modelos paramétricos
Los modelos paramétricos son modelos estadísticos que hacen suposiciones sobre la distribución de los datos. En la modelización paramétrica, el objetivo es estimar los parámetros de la distribución elegida basándose en los datos disponibles. Una vez estimados los parámetros, el modelo puede utilizarse para hacer inferencias y predicciones o generar nuevos datos. El término paramétrico se refiere a la estimación de esos parámetros.
Algunos ejemplos de modelos paramétricos son
-
Regresión lineal
-
Regresión exponencial
-
Regresión de Poisson
-
Regresión logística
La ventaja de estos modelos es que son fáciles de interpretar y explicar a las partes interesadas. Esto los convierte en modelos ideales sobre los que una empresa puede actuar fácilmente e incorporar a sus operaciones.
Modelos no paramétricos
Los modelos no paramétricos son modelos estadísticos que no hacen fuertes suposiciones sobre la distribución de la población subyacente o sus parámetros. A diferencia de los modelos paramétricos, que especifican una forma fija para la distribución y estiman sus parámetros, los modelos no paramétricos pretenden estimar la distribución subyacente de los datos directamente a partir de los propios datos.
Los modelos no paramétricos son flexibles y pueden manejar una amplia gama de distribuciones de datos sin asumir una forma funcional específica. Son especialmente útiles cuando los datos no se ajustan a los supuestos de los modelos paramétricos o cuando existe un conocimiento previo limitado sobre la distribución de los datos. Estos modelos suelen centrarse en estimar los patrones, relaciones o clasificaciones de los datos, en lugar de estimar parámetros específicos.
Algunos ejemplos de modelos no paramétricos son:
-
Vecinosmás próximos K(k-NN)
-
Árbol de decisión
-
Bosque aleatorio
-
Máquina de vectores de apoyo (SVM)
La ventaja de estos modelos es su flexibilidad, pero son más difíciles de interpretar y comunicar a las partes interesadas.
A lo largo de los próximos capítulos, te mostraré ejemplos de estos distintos tipos de modelos.
Resumen
En este capítulo, has aprendido sobre los distintos tipos de distribuciones, qué es la asimetría y cómo visualizar histogramas en Tableau. Ser capaz de aplicar estas técnicas es una habilidad fundamental que debes conocer antes de empezar a modelar.
En este capítulo también se ha introducido la idea de modelos paramétricos y no paramétricos. Conocer esta información te ayudará a decidir qué modelo aplicar a unos datos determinados, en función de la distribución de tus datos.
Get Cuadro estadístico now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.