Capítulo 1. Fundamentos del Análisis Exploratorio de Datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

"Nunca sabes lo que va a entrar por esa puerta", dice Rick Harrison en el comienzo de la exitosa serie Pawn Stars. Lo mismo ocurre en la analítica: ante un nuevo conjunto de datos, nunca sabes lo que vas a encontrar. Este capítulo de trata de explorar y describir un conjunto de datos para saber qué preguntas hacerle. El proceso se denominaanálisis exploratorio de datos, o AED.

¿Qué es el Análisis Exploratorio de Datos?

El matemático estadounidense John Tukey promovió el uso del AED en su libro Análisis Exploratorio de Datos (Pearson). Tukey hizo hincapié en que los analistas deben explorar primero los datos en busca de posibles preguntas de investigación antes de lanzarse a confirmar las respuestas con pruebas de hipótesis y estadística inferencial.

A menudo se compara el AED con "entrevistar" a los datos; es un momento para que el analista los conozca y aprenda qué cosas interesantes tienen que decir. Como parte de nuestra entrevista, querremos hacer lo siguiente:

  • Clasificar nuestras variables como continuas, categóricas, etc.

  • Resumir nuestras variables mediante estadísticas descriptivas

  • Visualizar nuestras variables mediante gráficos

EDA nos da mucho que hacer. Vamos a recorrer el proceso utilizando Excel y un conjunto de datos de la vida real. Puedes encontrar los datos de en el libro de trabajo star.xlsx, que se encuentra en la carpeta datasets del repositorio de este libro, en la subcarpeta star. Este conjunto de datos se recopiló para un estudio destinado a examinar el impacto del tamaño de las clases en los resultados de los exámenes. Para ésta y otras demostraciones basadas en Excel, te sugiero que completes los siguientes pasos con los datos sin procesar:

  1. Haz una copia del archivo de modo que el conjunto de datos original no se modifique. Más adelante importaremos algunos de estos archivos de Excel a R o Python, por lo que cualquier cambio en los conjuntos de datos afectará a ese proceso.

  2. Añade un índice columna llamada id. Esto numerará cada fila del conjunto de datos de modo que la primera fila tenga un ID de 1, la segunda de 2, y así sucesivamente. Esto puede hacerse rápidamente en Excel introduciendo números en las primeras filas de la columna, resaltando después ese rango y utilizando Relleno Flash para completar la selección basándote en ese patrón. Busca el pequeño cuadrado en la parte inferior derecha de tu celda activa, pasa el ratón por encima hasta que veas un pequeño signo más y, a continuación, rellena el resto de tu rango. Añadir esta columna de índice facilitará el análisis de los datos por grupos.

  3. Por último, convierte tu conjunto de datos resultante en una tabla seleccionando cualquier celda del intervalo, luego ve a la cinta de opciones y haz clic en Insertar → Tabla. El atajo de teclado es Ctrl + T para Windows, Cmd + T para Mac. Si tu tabla tiene cabeceras, asegúrate de que la selección "Mi tabla tiene cabeceras" está activada. Las tablas tienen bastantes ventajas, entre las que destaca su atractivo estético. También es posible referirse a las columnas por su nombre en las operaciones con tablas.

    Puedes dar un nombre específico a la tabla haciendo clic en cualquier lugar dentro de ella, luego yendo a la cinta y haciendo clic en Diseño de tabla → Nombre de tabla dentro del grupo Propiedades, como se muestra en la Figura 1-1.

Table Name in Excel
Figura 1-1. El cuadro Nombre de la tabla

Realizar estas primeras tareas de análisis te servirá de práctica para otros conjuntos de datos con los que quieras trabajar en Excel. Para el conjunto de datos estrella, tu tabla completada debería parecerse a la Figura 1-2. He llamado a mi tabla star. Este conjunto de datos está dispuesto en forma rectangular de columnas y filas.

Labeled STAR data
Figura 1-2. El conjunto de datos estrella, ordenado en filas y columnas

Probablemente hayas trabajado con suficientes datos como para saber que ésta es una forma deseable para el análisis. A veces, necesitamos limpiar nuestros datos para llevarlos al estado que queremos; hablaré de algunas de estas operaciones de limpieza de datos más adelante en el libro. Pero por ahora, contemos nuestras bendiciones y aprendamos sobre nuestros datos y sobre EDA.

En analítica, a menudo nos referimos a observaciones y variablesen lugar de a filas y columnas. Exploremos el significado de estos términos.

Observaciones

En este conjunto de datos tenemos 5.748 filas: cada una es una observación única. En este caso, las medidas se toman a nivel de estudiante; las observaciones podrían ser desde ciudadanos individuales hasta naciones enteras.

Variables

Cada columna ofrece una información distinta sobre nuestras observaciones. Por ejemplo, en , en el conjunto de datos estrella podemos encontrar la puntuación en lectura de cada alumno(treadssk) y en qué tipo de clase estaba el alumno(classk). Nos referiremos a estas columnas como variables. La Tabla 1-1 describe lo que mide cada columna de star:

Tabla 1-1. Descripciones de las variables del conjunto de datos estrella
Columna Descripción

id

Identificador único/columna de índice

tmathssk

Puntuación total en matemáticas

treadssk

Puntuación total en la escala de lectura

classk

Tipo de clase

totexpk

Total de años de experiencia del profesor

sexo

Sexo

freelunk

¿Tienes derecho a comer gratis?

carrera

Carrera

schidkn

Indicador escolar

¿Listo para una tautología? Las llamamos variables porque sus valores pueden variar según las observaciones. Si cada observación que registráramos arrojara las mismas medidas, no habría mucho que analizar. Cada variable puede proporcionar información bastante diferente sobre nuestras observaciones. Incluso en este conjunto de datos relativamente pequeño, tenemos texto, números y afirmaciones sí/no como variables. Algunos conjuntos de datos pueden tener docenas o incluso cientos de variables.

Puede ser útil clasificar estos tipos de variables, ya que estas distinciones serán importantes cuando continuemos nuestro análisis. Ten en cuenta que estas distinciones son algo arbitrarias y pueden cambiar en función de la finalidad y las circunstancias de nuestro análisis. Verás que el AED, y la analítica en general, son altamente iterativos.

Nota

La clasificación de las variables es un tanto arbitraria y, como gran parte de la analítica, se basa en reglas empíricas más que en criterios rígidos.

Hablaré de los distintos tipos de variables , como se muestra en la Figura 1-3, y después clasificaré el conjunto de datos de estrellas basándome en estas distinciones.

Types of variables
Figura 1-3. Tipos de variables

Hay otros tipos de variables que podrían tratarse aquí: por ejemplo, no consideraremos la diferencia entre datos de intervalo y de razón. Para profundizar en los tipos de variables, consultaStatistics in a Nutshell, 2ª edición (O'Reilly), de Sarah Boslaugh. Sigamos avanzando por la Figura 1-3, de izquierda a derecha.

Variables categóricas

A veces denominadas variables cualitativas, describen una cualidad o característica de una observación. Una pregunta típica a la que responden las variables categóricas es "¿De qué tipo?". Las variables categóricas suelen representarse mediante valores no numéricos, aunque no siempre es así.

Un ejemplo de variable categórica es el país de origen. Como cualquier variable, puede tomar distintos valores (Estados Unidos, Finlandia, etc.), pero no podemos hacer comparaciones cuantitativas entre ellos (¿qué es dos veces Indonesia, alguien?). Cualquier valor único que tome una variable categórica se conoce comonivel de esa variable. Tres niveles de un país de origen podrían ser EE.UU., Finlandia o Indonesia, por ejemplo.

Como las variables categóricas de describen una cualidad de una observación y no una cantidad, muchas operaciones cuantitativas con estos datos no son aplicables. Por ejemplo, no podemos calcular el país de origen medio, pero podríamos calcular el más común, o el recuento de frecuencia global de cada nivel.

Además, podemos distinguir los valores categóricos en función del número de niveles que puedan tener y de si la ordenación de esos niveles es significativa.

Las variables binarias sólo pueden tener dos niveles. A menudo, estas variables se expresan como respuestas sí/no, aunque no siempre es así. Algunos ejemplos de variables binarias:

  • ¿Casado? (sí o no)

  • ¿Has comprado? (sí o no)

  • Tipo de vino (tinto o blanco)

En el caso del tipo de vino, estamos suponiendo implícitamente que nuestros datos de interés sólo consisten en vino tinto o blanco... ¿pero qué ocurre si también queremos analizar el rosado? En ese caso, ya no podemos incluir los tres niveles y analizar los datos como binarios.

Cualquier variable cualitativa con más de dos niveles es una variable nominal. Algunos ejemplosson

  • País de origen (EE.UU., Finlandia, Indonesia, etc.)

  • Color favorito (naranja, azul, siena quemado, etc.)

  • Tipo de vino (tinto, blanco, rosado)

Ten en cuenta que algo como un número de DNI es una variable categórica enunciada numéricamente: aunquepodríamos tomar un número de DNI medio, esta cifra carece de sentido. Es importante señalar que no existe una ordenación intrínseca de las variables nominales. Por ejemplo, el rojo como color no puede ordenarse intrínsecamente más alto o más bajo que el azul. Puesto que la ordenación intrínseca no está necesariamente clara, veamos algunos ejemplos de su uso.

Ordinal las variables tienen más de dos niveles, donde existe una ordenación intrínseca entre estos niveles. Algunos ejemplos de variables ordinales:

  • Tamaño de la bebida (pequeña, mediana, grande)

  • Clase (primer año, segundo año, tercer año, cuarto año)

  • Días laborables (lunes, martes, miércoles, jueves y viernes)

Aquí, podemos ordenar intrínsecamente los niveles: senior es superior a freshman, mientras que no podemos decir lo mismo de rojo frente a azul. Aunque podemos ordenar estos niveles, no podemos cuantificar necesariamente ladistancia entre ellos. Por ejemplo, la diferencia de tamaño entre una bebida pequeña y una mediana puede no ser la misma que entre una mediana y una grande.

Variables cuantitativas

Estas variables describen una cantidad mensurable de una observación. Una pregunta típica a la que responden las variables cuantitativas es "¿Cuánto?" o "¿Cuántos?". Las variables cuantitativas casi siempre se representan mediante números. Podemos distinguir además entre variables cuantitativas en función del número de valores que pueden tomar.

Observaciones de una variable continua puede tomar, en teoría, un número infinito de valores entre dos valores cualesquiera. Esto suena complicado, pero las variables continuas son bastante comunes en el mundo natural. Algunos ejemplos:

  • Altura (dentro de un intervalo de 59 y 75 pulgadas, una observación podría ser 59,1, 74,99 o cualquier otro valor intermedio)

  • Nivel de pH

  • Superficie

Como podemos hacer comparaciones cuantitativas entre observaciones de variables continuas, se les aplica una gama más completa de análisis. Por ejemplo, tiene sentido sacar la media de las variables continuas, mientras que con las categóricas, no. Más adelante en este capítulo, aprenderás a analizar variables continuas hallando sus estadísticos descriptivos en Excel.

En cambio, las observaciones de una variable discreta sólo pueden tomar un número fijo de valores contables entre dos valores cualesquiera. Las variables discretas son bastante comunes en las ciencias sociales y empresariales. Algunos ejemplos son:

  • Número de individuos de un hogar (dentro de un intervalo de 1 y 10, una observación podría ser 2 ó 5, pero no 4.3)

  • Unidades vendidas

  • Número de árboles de un bosque

A menudo, cuando tratamos con variables discretas con muchos niveles o muchas observaciones, las tratamos como continuas para poder realizar un análisis estadístico más completo. Por ejemplo, puede que hayas oído que la familia media estadounidense tiene 1,93 hijos. Sabemos que ninguna familia tiene realmente tal número de hijos. Al fin y al cabo, se trata de una variable discreta que se presenta en números enteros. Sin embargo, a lo largo de muchas observaciones, esta afirmación puede ser una representación útil de cuántos hijos cabe esperar en un hogar típico.

Pero espera, ¡hay más! En los análisis más avanzados de , a menudo también recalcularemos y mezclaremos variables: por ejemplo, podemos tomar una transformación logarítmica de una variable para que cumpla los supuestos de un análisis determinado, o podemos extraer el significado de muchas variables en menos utilizando un método de llamado reducción de la dimensionalidad. Estas técnicas quedan fuera del alcance de este libro.

Demostración: Clasificación de variables

Utilizando lo que has aprendido hasta ahora, clasifica las variables estelares utilizando los tipos recogidos en la Figura 1-3. Mientras lo piensas, no dudes en investigar los datos. Aquí te daré una forma sencilla de hacerlo, y más adelante en este capítulo recorreremos un proceso más exhaustivo.

Una forma rápida de hacerte una idea de lo que pueden ser las variables del tipo es averiguar el número de valores únicos que toman. Esto se puede hacer en Excel comprobando la vista previa del filtro. He hecho clic en la flecha desplegable junto a la variable sexo de la Figura 1-4 y he comprobado que sólo toma dos valores distintos. ¿Qué tipo de variable crees que puede ser? Tómate un momento para recorrer las variables utilizando éste u otros métodos.

Filtered table
Figura 1-4. Utilizar la vista previa del filtro para averiguar cuántos valores distintos toma una variable

La Tabla 1-2 muestra cómo decidí clasificar estas variables.

Tabla 1-2. Cómo clasifiqué estas variables
Variable Descripción ¿Categórica o cuantitativa? ¿Tipo?

id

Columna índice

Categórico

Nominal

tmathssk

Puntuación total en matemáticas

Cuantitativo

Continuo

treadssk

Puntuación total en la escala de lectura

Cuantitativo

Continuo

classk

Tipo de clase

Categórico

Nominal

totexpk

Total de años de experiencia del profesor

Cuantitativo

Discreto

sexo

Sexo

Categórico

Binario

freelunk

¿Tienes derecho a comer gratis?

Categórico

Binario

carrera

Carrera

Categórico

Nominal

schidkn

Indicador escolar

Categórico

Nominal

Algunas de estas variables, como classk y freelunk eran más fáciles de clasificar. Otras, como schidkn e id, no eran tan obvias: se expresan en términos numéricos, pero no puede compararse cuantitativamente.

Advertencia

Que los datos se enuncien numéricamente no significa que puedan utilizarse como variable cuantitativa.

Verás que sólo tres de ellas son cuantitativas: tmathssk,treadssk y totexpk. He decidido clasificar las dos primeras como continuas, y la última como discreta. Para entender por qué, empecemos por totexpk, el número de años de experiencia del profesor. Todas estas observaciones se expresan en números enteros, que van de 0 a 27. Como esta variable sólo puede adoptar un número fijo de valores contables, la clasifiqué comodiscreta.

Pero, ¿qué ocurre con tmathssk y treadssk, las puntuaciones de los exámenes? Éstas también se expresan en números enteros: es decir, un alumno no puede recibir una puntuación en lectura de 528,5, sólo de 528 o 529. En este sentido, son discretos. Sin embargo, como estas puntuaciones pueden adoptar tantos valores únicos, en la práctica tiene sentido clasificarlas como continuas.

Puede que te sorprenda ver que, en un campo tan riguroso como el de la analítica, hay muy pocas reglas rígidas.

Recapitulación: Tipos de variables

Conoce bien las normas, para poder romperlas con eficacia.

Dalai Lama XIV

La forma en que clasificamos una variable influye en cómo la tratamos en nuestro análisis: por ejemplo, podemos calcular la media de variables continuas, pero no de variables nominales. Al mismo tiempo, a menudo nos saltamos las normas por conveniencia; por ejemplo, tomando la media de una variable discreta, de modo que una familia tiene 1,93 hijos de media.

A medida que avancemos en nuestro análisis, podemos decidir retorcer más reglas, reclasificar variables o construir variables nuevas por completo. Recuerda, el AED es un proceso iterativo .

Nota

Trabajar con datos y variables es un proceso iterativo. La forma en que clasificamos las variables puede cambiar en función de lo que encontremos más adelante en nuestra exploración y del tipo de preguntas que decidamos plantear a nuestros datos.

Explorar variables en Excel

Sigamos explorando el conjunto de datos de estrellas con estadísticas descriptivas y visualizaciones. Realizaremos este análisis en Excel, aunque podrías seguir estos mismos pasos en R o Python y obtener resultados coincidentes. Al final del libro, serás capaz de realizar AED utilizando los tres métodos.

Empezaremos nuestra exploración de variables con las variables categóricas de estrella.

Explorar variables categóricas

Recuerda que estamos midiendo cualidades y no cantidades con variables categóricas, por lo que éstas no tendrán una media, un mínimo o un máximo significativos, por ejemplo. Aun así, podemos realizar algunos análisis de estos datos, concretamente contando frecuencias. Podemos hacerlo en Excel con Tablas dinámicas. Coloca el cursor en cualquier lugar del conjunto de datos estrella y selecciona Insertar → Tabla dinámica, como en la Figura 1-5. Haz clic en Aceptar.

Insert Pivot Table
Figura 1-5. Insertar una tabla dinámica

Me gustaría averiguar cuántas observaciones proceden de cada tipo de clase. Para ello, arrastraré classk al área Filas de la Tabla dinámica, e id a Valores. Por defecto, Excel tomará la suma del campo id. Comete el error de suponer que una variable categórica es cuantitativa. No podemos comparar cuantitativamente los números de ID, pero podemos contar sus frecuencias. Para hacerlo en Windows, haz clic en "Suma de id" en el área Valores y selecciona Configuración del campo de valor. En "Resumir campo de valor por", selecciona "Contar". Haz clic en Aceptar. En Mac, haz clic en el icono i junto a "Suma de id" para hacerlo. Ahora tenemos lo que queremos: el número de observaciones de cada tipo de clase. Esto se conoce en como tabla de frecuencias unidireccional y se muestra en la Figura 1-6.

One-way frequency table
Figura 1-6. Tabla de frecuencias unidireccional del tipo de clase

Vamos a desglosar este recuento de frecuencias de en observaciones de alumnos que estaban y no estaban en el programa de comidas gratuitas. Para ello, colocafreelunk en el área Columnas de la Tabla dinámica. Ahora tenemos una tabla de frecuenciasbidireccional, como la de la Figura 1-7.

Two-way frequency table
Figura 1-7. Tabla de frecuencias bidireccional del tipo de clase según el programa de comidas

A lo largo de este libro, crearemos visualizaciones en como parte de nuestro análisis. Con todo lo demás que tenemos que cubrir, no dedicaremos demasiado tiempo a los principios y técnicas de la visualización de datos. Sin embargo, merece la pena estudiar este campo; para una introducción útil en , consulta Fundamentos de la visualización de datos, de Claus O. Wilke (O'Reilly).

Podemos visualizar una tabla de frecuencias unidireccional o bidireccional con un gráfico de barras (también conocido como diagrama de barras o diagrama de recuento). Vamos a trazar nuestra tabla de frecuencias bidireccional haciendo clic dentro de la Tabla dinámica y haciendo clic en Insertar → Columna agrupada. La Figura 1-8 muestra el resultado. Añadiré un título al gráfico haciendo clic alrededor de su perímetro y luego en el icono del signo más que aparece en la parte superior derecha. En el menú Elementos del Gráfico que aparece, marca la selección de Título del Gráfico. Para encontrar este menú en Mac, haz clic en el gráfico y en la cinta de opciones ve a Diseño → Añadir elemento de gráfico. Añadiré gráficos de esta forma varias veces más en el libro.

Observa que tanto el gráfico de recuento como la tabla han dividido el número de observaciones por tipo de clase en alumnos que están y no están en el programa de comidas gratuitas. Por ejemplo, 1.051 y 949 indican la primera y segunda etiquetas y barras en la tabla y el gráfico de recuento, respectivamente.

Grouped bar chart
Figura 1-8. Tabla de frecuencias bidireccional visualizada como gráfico de recuento

Incluso para un análisis tan sencillo como una tabla de frecuencias bidireccional, no es mala idea visualizar los resultados. Los humanos pueden procesar líneas y barras en un gráfico con mucha más facilidad que los números en una tabla, por lo que, a medida que nuestro análisis crece en complejidad, debemos seguir trazando los resultados.

No podemos hacer comparaciones cuantitativas sobre datos categóricos, así que cualquier análisis que realicemos sobre ellos se basará en sus recuentos. Esto puede parecer poco emocionante, pero no deja de ser importante: nos dice qué niveles de valores son los más comunes, y puede que queramos comparar estos niveles mediante otras variables para realizar análisis posteriores. Pero por ahora, exploremos las variables cuantitativas.

Exploración de variables cuantitativas

Aquí, vamos a ejecutar una gama más completa de estadísticas resumidas o descriptivas. Las estadísticas descriptivas te permiten resumir conjuntos de datos utilizando métodos cuantitativos. Las frecuencias son un tipo de estadística descriptiva; veamos algunas otras y cómo calcularlas en Excel.

Las medidas de tendencia central son un conjunto de estadísticas descriptivas que expresan qué valor o valores toma una observación típica. Trataremos las tres medidas más comunes.

En primer lugar, la media o promedio . Más concretamente, la media aritmética, que se calcula sumando todas las observaciones y dividiendo ese número por el número total de observaciones. De todas las medidas estadísticas tratadas, puede que ésta te resulte más familiar, y es a la que seguiremos refiriéndonos.

A continuación, la mediana . Es la observación que se encuentra en el centro de nuestro conjunto de datos. Para calcular la mediana, ordena o clasifica los datos de menor a mayor, luego cuenta en los datos de ambos lados para encontrar el centro. Si se encuentran dos valores en el medio, toma la media para hallar la mediana.

Por último, la moda : el valor que se da con más frecuencia. También es útil ordenar los datos para encontrar el modo. Una variable puede tener uno, varios o ningún modo.

Excel dispone de un rico conjunto de funciones estadísticas, incluidas algunas para calcular medidas de tendencia central, que se muestran en la Tabla 1-3.

Tabla 1-3. Funciones de Excel para medir la tendencia central
Estadística Función Excel

Media

AVERAGE(number1, [number2], ...)

Mediana

MEDIAN(number1, [number2], ...)

Modo

MODE.MULT(number1, [number2], ...)

MODE.MULT() es una nueva función de en Excel que utiliza el poder de las matrices dinámicas para devolver múltiples modos potenciales. Si no tienes acceso a esta función, prueba con MODE(). Utilizando estas funciones, encuentra las medidas de tendencia central de nuestras puntuacionestmathssk. La Figura 1-9 muestra los resultados.

A partir de este análisis, vemos que nuestras tres medidas de tendencia central tienen valores bastante similares, con una media de 485,6, una mediana de 484 y una moda de 489. También he decidido averiguar con qué frecuencia se da la moda: 277 veces.

Calculating measures of central tendency in Excel
Figura 1-9. Cálculo de medidas de tendencia central en Excel

Con todas estas medidas de tendencia central, ¿en cuál es correcto centrarse? Responderé a esto con un breve estudio de caso. Imagina que eres consultor en una organización sin ánimo de lucro. Te han pedido que analices los donativos y aconsejes qué medida de tendencia central seguir. Los donativos se muestran en la Tabla 1-4. Tómate un momento para calcular y decidir.

Tabla 1-4. Considera qué medida deberías seguir teniendo en cuenta estos datos

$10

$10

$25

$40

$120

La media parece convencional para hacer un seguimiento, pero ¿son los 41$ realmenterepresentativos de nuestros datos? Todas las donaciones individuales menos una fueron en realidad inferiores a esa cifra; la donación de 120 $ está inflando este número. Éste es uno de los inconvenientes de la media: los valores extremos pueden influirla indebidamente.

No tendríamos este problema si utilizáramos la mediana : 25$ es quizás una mejor representación del "valor medio" que 41$. El problema de esta medida es que no tiene en cuenta el valor preciso de cada observación: simplemente estamos "contando hacia abajo" hasta la mitad de la variable, sin tener en cuenta la magnitud relativa de cada observación.

Eso nos deja con el modo , que sí ofrece información útil: el donativo más común es de 10 $. Sin embargo, 10$ no es del todo representativo del conjunto de donaciones. Además, como ya se ha dicho, un conjunto de datos puede tener varias modalidades o ninguna, por lo que no es una medida muy estable.

¿Nuestra respuesta a la organización sin ánimo de lucro, entonces? Debería hacer un seguimiento y evaluarlas todas. Cada medida resume nuestros datos desde una perspectiva diferente. Sin embargo, como verás en capítulos posteriores, lo más habitual es centrarse en la media al realizar análisis estadísticos más avanzados.

Nota

Con frecuencia analizaremos varias estadísticas para obtener una perspectiva más completa sobre el mismo conjunto de datos. Ninguna medida es necesariamente mejor que las demás.

Ahora que hemos establecido dónde está el "centro" de la variable, queremos explorar cómo de "dispersos" están esos valores respecto al centro. Existen varias medidas de variabilidad; nos centraremos en las más comunes.

En primer lugar, el rango , o la diferencia entre los valores máximo y mínimo. Aunque es sencillo de derivar, es muy sensible a las observaciones: basta un valor extremo, y el rango puede inducir a error sobre dónde se encuentran realmente la mayoría de las observaciones.

A continuación, la varianza. Es una medida de la dispersión de las observaciones respecto a la media. Su cálculo es un poco más intensivo que el que hemos realizado hasta ahora. Nuestros pasosserán:

  1. Halla la media de nuestro conjunto de datos.

  2. Resta la media de cada observación. Ésta es la desviación.

  3. Toma la suma de los cuadrados de todas las desviaciones.

  4. Divide la suma de los cuadrados por el número de observaciones.

Es mucho que seguir. Para operaciones tan complicadas, puede ser útil utilizar la notación matemática. Sé que puede costar acostumbrarse y que intimida al principio, pero considera la alternativa de la lista anterior. ¿Es más inteligible? La notación matemática puede proporcionar una forma más precisa de expresar lo que hay que hacer. Por ejemplo, podemos cubrir todos los pasos necesarios para hallar la varianza en la Ecuación 1-1:

Ecuación 1-1. Fórmula para hallar la varianza
s 2 = (X-X ¯) 2 N

s 2 es nuestra varianza. (X-X ¯) 2 nos dice que tenemos que restar cada observación X de la media X ¯ y elevarla al cuadrado. nos dice que sumemos esos resultados. Por último, ese resultado se divide por el número de observaciones N .

Utilizaré la notación matemática algunas veces más en este libro, pero sólo en la medida en que sea una forma más eficaz de expresar y comprender un concepto dado que escribir discursivamente todos los pasos. Prueba a calcular en la varianza de los números de la Tabla 1-5.

Tabla 1-5. Mide la variabilidad de estos datos

3

5

2

6

3

2

Como esta estadística es comparativamente más compleja de derivar, utilizaré Excel para gestionar los cálculos. Dentro de un momento aprenderás a calcular la varianza utilizando las funciones integradas de Excel. La Figura 1-10 muestra los resultados.

Calculating variance in Excel
Figura 1-10. Cálculo de la varianza en Excel

Puedes encontrar estos resultados en la hoja de trabajo de variabilidad del cuaderno que acompaña a este capítulo, ch-1.xlsx.

Quizá te preguntes por qué trabajamos con el cuadrado de las desviaciones. Para verpor qué, toma la suma de las desviaciones no al cuadrado. Es cero: estas desviaciones se anulanentre sí.

El problema con la varianza es que ahora estamos trabajando en términos de desviaciones al cuadrado de la unidad original. No es una forma intuitiva de analizar los datos. Para corregirlo, tomaremos la raíz cuadrada de la varianza, conocida como desviación típica. La variabilidad se expresa ahora en términos de la unidad de medida original, la media. La ecuación 1-2 muestra la desviación típica expresada en notación matemática.

Ecuación 1-2. Fórmula para hallar la desviación típica
s = X i -X ¯ 2 N

Utilizando esta fórmula, la desviación típica de la Figura 1-10 es 1,5 (la raíz cuadrada de 2,25). Podemos calcular estas medidas de variabilidad en Excel utilizando las funciones de la Tabla 1-6. Observa que se utilizan funciones diferentes para la varianza y la desviación típica de lamuestra y de la población. La medida muestral utiliza N - 1 en lugar de N en el denominador, lo que da lugar a una varianza y una desviación típica mayores.

Tabla 1-6. Funciones de Excel para medir la variabilidad
Estadística Función Excel

Gama

MAX(number1, [number2], ...)_ - _MIN(number1, [number2], ...)

Varianza (muestra)

VAR.S(number1, [number2], ...)

Desviación típica (muestra)

STDEV.S(number1, [number2], ...)

Varianza (población)

VAR.P(number1, [number2], ...)

Desviación típica (población)

STDEV.P(number1, [number2], ...)

La distinción entre la muestra y la población será un tema clave de capítulos posteriores. Por ahora, si no estás seguro de haber recogido todos los datos que te interesan , utiliza las funciones de muestra. Como estás empezando a ver, tenemos varios estadísticos descriptivos a los que prestar atención. Podemos agilizar su cálculo utilizando las funciones de Excel, pero también podemos utilizar su Data Analysis ToolPak para obtener un conjunto completo de estadísticas descriptivas con unos pocos clics.

Consejo

Algunas medidas estadísticas difieren cuando se calculan para una población o para una muestra. Si no estás seguro de con cuál estás trabajando, asume la muestra.

Este complemento viene instalado con Excel, pero primero tienes que cargarlo. En Windows, selecciona en la cinta Archivo → Opciones > Complementos. A continuación, haz clic en Ir en la parte inferior del menú. Selecciona Analysis ToolPak en el menú y haz clic en Aceptar. No es necesario seleccionar la opción Analysis ToolPak-VBA. Para Mac, en la barra de menús seleccionarás Datos → Herramientas de análisis. Selecciona Analysis ToolPak en el menú y haz clic en Aceptar. Puede que tengas que reiniciar Excel para completar la configuración. Después, verás un nuevo botón de Análisis de Datos en la pestaña Datos.

En la Tabla 1-1, determinamos que tmathssk y treadssk son variables continuas. Vamos a calcular sus estadísticas descriptivas utilizando el ToolPak. En la cinta, selecciona Datos → Análisis de datos → Estadística descriptiva. Aparecerá un menú; selecciona el rango de entrada B1:C5749. Asegúrate de activar las casillas de verificación de "Etiquetas en la primera fila" y "Estadísticas de resumen". Tu menú debería parecerse a la Figura 1-11. Puedes dejar los demás ajustes como están y hacer clic en Aceptar.

Esto insertará las estadísticas descriptivas de estas dos variables en una nueva hoja de cálculo, como en la Figura 1-12.

Ahora vamos a ver encontrar estadísticas descriptivas para cada nivel de una variable categórica con el fin de comparar entre grupos. Para ello, inserta una nueva Tabla dinámica basada en los datos estrella en una nueva hoja de cálculo. Coloca freelunken el área Columnas, id en las Filas y Suma de treadssk en la sección Valores. Recuerda que el campo id es un identificador único, por lo que en realidad no deberíamos sumarlo en la Tabla dinámica, a pesar de lo que piense.

Running descriptive statistics in the ToolPak
Figura 1-11. Obtención de estadísticas descriptivas con el Paquete de Herramientas de Análisis
ToolPak descriptive statistics
Figura 1-12. Estadísticas descriptivas derivadas del Paquete de herramientas de análisis

Para ésta y las futuras operaciones de Tabla dinámica que vayamos a realizar, lo mejor es desactivar todos los totales haciendo clic dentro de ella y seleccionando Diseño → Grandes totales → Desactivar para filas y columnas. De esta forma no incluiremos por error los grandes totales como parte del análisis. Ahora puedes utilizar el ToolPak para insertar estadísticas descriptivas. La Figura 1-13 muestra el resultado.

Descriptive stats by group
Figura 1-13. Cálculo de estadísticas descriptivas por grupo

Ya conoces la mayoría de estas medidas de ; este libro abordará el resto más adelante. Puede parecer que toda la información presentada por el ToolPak anula cualquier necesidad de visualizar los datos. De hecho, las visualizaciones siguen desempeñando un papel indispensable en EDA. En concreto, las utilizaremos para informarnos sobre la distribución de las observaciones en todo el rango de valores de una variable.

En primer lugar, veremos los histogramas. Con estos gráficos, podemos visualizar en la frecuencia relativa de las observaciones por intervalo. Para construir un histograma de treadssk en Excel, selecciona ese intervalo de datos, luego ve a la cinta y selecciona Insertar → Histograma. La Figura 1-14 muestra el resultado.

Podemos ver en la Figura 1-14 que el intervalo que se da con más frecuencia está entre 426,6 y 432,8, y hay aproximadamente 650 observaciones que caen en este intervalo. Ninguna de las puntuaciones reales de nuestros tests incluye decimales, pero nuestro eje x puede incluirlos dependiendo de cómo Excel establezca los intervalos , o bins. Podemos cambiar el número de intervalos haciendo clic con el botón derecho en el eje x del gráfico y seleccionando Formatear eje. Aparecerá un menú a la derecha. (Estas funciones no están disponibles para Mac).

Distribution of reading scores
Figura 1-14. Distribución de las puntuaciones en lectura

Por defecto, Excel decidió 51 ubicaciones, pero ¿qué pasaría si redujéramos (aproximadamente) a la mitad y duplicáramos ese número a 25 y 100, respectivamente? Ajusta los números en el menú; la Figura 1-15 muestra los resultados. Me gusta pensar en esto como "acercar y alejar" los detalles de la distribución.

Histogram bin widths
Figura 1-15. Cambiar el número de intervalos del histograma

Con la distribución visualizada como un histograma, podemos ver rápidamente que hay un número considerable de puntuaciones de test en el extremo derecho de la distribución, pero que la mayoría de las puntuaciones de test están abrumadoramente en el rango 400-500.

¿Y si quisiéramos ver cómo varía la distribución de las puntuaciones en lectura de entre los tres tamaños de clase? En este caso, estamos comparando una variable continua entre tres niveles de una categórica. Configurar esto con un histograma en Excel requerirá algo de "hacking", pero podemos apoyarnos en las Tablas dinámicas para hacer el trabajo.

Inserta una nueva Tabla dinámica basada en el conjunto de datos estrella y, a continuación, arrastratreadssk al área Filas, classk al área Columnas y "Recuento de id" al área Valores. De nuevo, el análisis posterior será más fácil si eliminamos los totales de la Tabla dinámica.

Ahora vamos a crear un gráfico a partir de estos datos. Haz clic en cualquier lugar de tu Tabla dinámica y, en la cinta, selecciona Insertar → Columna agrupada. El resultado, que se muestra en la Figura 1-16, es muy difícil de leer, pero compáralo con la Tabla dinámica de origen: nos está diciendo que, para los alumnos con una puntuación de 380, 10 tenían clases regulares, 2 tenían clases regulares con ayudantes y 2 tenían clases reducidas.

Raw grouped histogram
Figura 1-16. Iniciar un histograma multigrupo

A partir de aquí, es cuestión de agrupar estos valores en intervalos mayores. Para ello, haz clic con el botón derecho del ratón en cualquier lugar dentro de los valores de la primera columna de tu Tabla dinámica y selecciona Agrupar. Excel agrupará por defecto en incrementos de 100; cámbialo a 25.

Empieza a aparecer un histograma reconocible. Vamos a reformatear el gráfico para que se parezca aún más a uno. Haz clic con el botón derecho en cualquiera de las barras del gráfico y selecciona Formatear Serie de Datos. Convertirás el Solapamiento de Series al 75% y la Anchura del Hueco al 0%. La Figura 1-17 muestra el resultado.

Grouped histogram
Figura 1-17. Crear un histograma multigrupo con una Tabla dinámica

Podríamos ajustar la anchura de los huecos para que se cruzaran completamente, pero entonces sería aún más difícil ver la distribución regular del tamaño de las clases. Los histogramas son una buena visualización para ver la distribución de una variable continua, pero pueden desordenarse rápidamente.

Como alternativa, veamos boxplots. Aquí, visualizaremos nuestra distribución en términos decuartiles. El centro del boxplot es una medida con la que estás familiarizado, la mediana.

Como "medio" de nuestro conjunto de datos, una forma de pensar en la mediana de es como el segundo cuartil. Podemos encontrar el primer y el tercer cuartil dividiendo nuestro conjunto de datos uniformemente en cuadrantes y encontrando sus puntos medios. En la Figura 1-18 se etiquetan los distintos elementos de un diagrama de caja.

Labeled boxplot
Figura 1-18. Elementos de un boxplot

La parte del gráfico resultante de que se encuentra en la "caja" se conoce comorango intercuartílico. Este rango se utiliza como base para derivar otras partes del gráfico. El rango restante que cae dentro de 1,5 veces el rango intercuartílico se representa mediante dos líneas o "bigotes". De hecho, Excel se refiere a este tipo de gráfico como Box & Whisker.

Las observaciones que no se encuentran dentro de este rango se muestran como puntos individuales en el gráfico. Se consideranvalores atípicos. El diagrama de caja puede ser más complejo que el histograma, pero afortunadamente Excel se encargará de toda la preparación por nosotros. Volvamos a nuestro ejemplo del treadssk. Resalta este intervalo y, en la cinta de opciones, selecciona Insertar → Caja y Bigote.

Podemos ver en la Figura 1-19 que nuestro rango intercuartílico se sitúa entre 415 y 450 aproximadamente, y que hay varios valores atípicos, sobre todo en el lado alto. Observamos patrones similares en los datos del histograma, aunque teníamos una perspectiva más visual de la distribución completa, y podíamos examinar a diferentes niveles de granularidad con diferentes anchuras de cajón. Al igual que con las estadísticas descriptivas, cada visualización ofrece una perspectiva única de los datos; ninguna es intrínsecamente superior a las demás.

Distribution of reading scores boxplot
Figura 1-19. Diagrama de caja de las puntuaciones en lectura

Una ventaja del diagrama de caja es que nos proporciona información precisa sobre dónde se encuentran los cuartiles de nuestros datos, y qué observaciones se consideran atípicas. Otra es que puede ser más fácil comparar las distribuciones de entre varios grupos. Para hacer gráficos de caja de varios grupos en Excel, lo más fácil es tener la variable categórica de interés directamente a la izquierda de la continua. De este modo, mueve classk a la izquierda de treadssk en tu fuente de datos. Con estos datos de seleccionados, haz clic en Insertar → Caja y Bigote de la cinta de opciones. En la Figura 1-20 vemos que la distribución general de las puntuaciones es similar en los tres grupos de .

Grouped boxplot
Figura 1-20. Gráfico de caja de las puntuaciones de lectura por tipo de clase

Recapitulando, cuando trabajamos con datos cuantitativos podemos hacer mucho más que contarfrecuencias:

  • Podemos determinar en torno a qué valor o valores se centran los datos utilizando medidas de tendencia central.

  • Podemos determinar lo relativamente dispersos que están esos datos utilizando medidas devariabilidad.

  • Podemos visualizar la distribución de esos datos mediante histogramas y gráficos de caja.

Hay otras estadísticas descriptivas y otras visualizaciones con las que explorar variables cuantitativas. Incluso aprenderás sobre algunas de ellas más adelante en el libro. Pero éste es un buen comienzo con las preguntas más cruciales que debes hacer a tus datos durante el AED.

Conclusión

Aunque nunca sabemos lo que obtendremos en un nuevo conjunto de datos, el marco EDA nos proporciona un buen proceso para darle sentido. Ahora sabemos con qué tipo de variables estamos trabajando en estrella, y cómo son y se comportan sus observaciones en conjunto: toda una entrevista en profundidad. En el Capítulo 3, nos basaremos en este trabajo aprendiendo a confirmar las percepciones que hemos obtenido sobre los datos explorándolos. Pero antes de eso, haremos un recorrido por la probabilidad en el Capítulo 2, que proporciona gran parte del combustible para el motor analítico.

Ejercicios

Practica tus habilidades en EDA con el conjunto de datos de vivienda, disponible en el repositorio del libro en conjuntos de datosviviendavivienda.xlsx. Se trata de un conjunto de datos de la vida real que consiste en los precios de venta de las viviendas en la ciudad de Windsor, Ontario, Canadá. Puedes encontrar una descripción de las variables en la hoja de trabajo "léeme"del archivo. Completa lo siguiente, y no dudes en completar también tu propio EDA:

  1. Clasifica el tipo de cada variable.

  2. Construye una tabla de frecuencias bidireccional de airco y prefarea.

  3. Devuelve estadísticas descriptivas del precio.

  4. Visualiza la distribución del tamaño de los lotes.

Puedes encontrar la solución a estos y a todos los demás ejercicios del libro en la carpeta exercise-solutions del repositorio del libro. Hay un archivo con el nombre de cada capítulo.

Get Avanzar en la Analítica now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.