Capítulo 4. Ratios y tasas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

"Somos la gran ciudad más segura de América, pero cualquier índice de criminalidad es demasiado alto".

Michael Bloomberg, ex alcalde de Nueva York

Hasta ahora, hemos considerado cantidades absolutas de sustantivos contables y mensurables, como población, toneladas de basura recogidas y número de avistamientos de ratas por municipio. Agradable, lo sé.

Pero no todos los distritos son iguales. Como vimos en el Capítulo 1, tienen diferentes superficies y diferente número de habitantes. El hecho de que produzcan diferentes cantidades de basura no es sorprendente, y probablemente no sea un mensaje muy interesante para comunicar a un público.

Estas comparaciones absolutas, aunque útiles para mostrar el panorama general, no suelen considerarse comparaciones "manzanas con manzanas". Hay manzanas y, bueno, hay Grandes Manzanas.

Una forma útil de "normalizar" las comparaciones en es utilizar razones, tasas, proporciones y porcentajes. ¿Cuál es la diferencia entre estos cuatro?

  • Una proporción es una comparación de dos términos expresados como cociente. Por ejemplo, Manhattan produjo 0,264 toneladas de reciclaje por cada tonelada de basura. Los cocientes pueden expresarse como "x a y", "x:y", "x/y" o como decimal.

  • Una tasa es una relación en la que los dos términos tienen unidades diferentes. Por ejemplo, la densidad de población de Brooklyn es de 36.136 residentes por milla cuadrada. Las tasas suelen ser predictivas porque se puede utilizar el tiempo como denominador (índices de delincuencia, índices de crecimiento de la población, etc.).

  • Una proporción es un cociente en el que el numerador es una cantidad parcial y el denominador es la cantidad total (expresada como un número entre 0 y 1). Por ejemplo, la proporción de la población de Nueva York que vive en el Bronx es 0,169. Una proporción se expresa como un número entre 0 y 1.

  • Un porcentaje es una relación que compara un número con 100. Por ejemplo, el 16,9% de los habitantes de Nueva York viven en el Bronx. Un porcentaje suele ser un número entre 0 y 100, pero puede ser mayor que 100 (por ejemplo, "las ventas han aumentado un 150% interanual").

Estos tipos de comparaciones normalizadas pueden dar lugar a mensajes mucho más interesantes de comunicar. Por suerte, son bastante fáciles de crear en Tableau. Exploraremos las dos primeras en este capítulo, y las dos últimas en el siguiente.

Ratios

La propia fuente de datos puede incluir un campo que sea una proporción, pero lo más frecuente es que los datos sin procesar incluyan términos que un analista necesita combinar para crear una proporción. Tableau puede manejar este tipo de cálculos con Campos calculados, en los que se pueden crear nuevos campos combinando campos existentes mediante diversas operaciones. Introdujimos el concepto en el Capítulo 2, y ahora vamos a desarrollarlo.

Volvamos al conjunto de datos del DSNY para ilustrar la técnica, y veremos si la comparación de ratios es más interesante que las cifras absolutas.

Los datos comunicados por la DSNY incluyen tres Medidas continuas (campos cuantitativos) para cada distrito comunitario:

RefuseTonsCollected

Cantidad de basura no reciclable

PaperTonsCollected

Cantidad de papel reciclable

MGPTonsCollected

Cantidad de metal, vidrio y plástico reciclable

Los dos segundos tipos de datos (papel y MGP) son ambos reciclables, por lo que pueden sumarse para crear una nueva variable para cada distrito comunitario que llamaremos RecyclableTonsCollected para mantener la coherencia con la nomenclatura facilitada.

Sería interesante estudiar una comparación de la proporción de material reciclable de con respecto a los residuos, ya que indicaría qué comunidades de la ciudad de Nueva York están haciendo un mejor trabajo de reciclaje.

En primer lugar, tendremos que crear un nuevo campo calculado que sume los dos campos reciclables. Haz clic con el botón derecho del ratón en cualquier lugar de los paneles izquierdo Dimensiones o Medidas, y selecciona Crear campo calculado. A continuación, rellena el cuadro de diálogo resultante, como se muestra en la Figura 4-1.

Figura 4-1. Sumar dos campos con un Campo Calculado

A continuación, vamos a crear un segundo campo calculado que cree la relación entre material reciclable y basura. Vuelve a hacer clic con el botón derecho del ratón en el área Dimensiones o Medidas y rellena el cuadro de diálogo como se muestra en la Figura 4-2.

Observa que ponemos el numerador y el denominador entre paréntesis, precedidos de SUM. Este es fundamental, porque al subir un nivel de distrito comunitario a municipio, no queremos sumar las ratios individuales de cada distrito comunitario; queremos crear una nueva ratio que represente el cociente de las cantidades agregadas. El primer enfoque crearía un cociente mayor que es engañoso.

Figura 4-2. Crear una relación con un campo calculado

Ahora que hemos creado las ratios, ¿cuál es la mejor forma de visualizarlas? Empecemos con un simple gráfico de barras de las ratios agregadas de cada uno de los distritos. Para crearlo, arrastraremos el campo Borough del área Dimensiones de la izquierda al estante Filas, y arrastraremos el campo calculado Recycle to Refuse Ratio al estante Columnas. El color no sería estrictamente necesario, pero lo añadiremos de todas formas por estética arrastrando Borough a la estantería Color. Por último, ordenaremos las barras en orden descendente para poner en primer lugar el municipio con el mayor índice de reciclaje. La captura de pantalla de la Figura 4-3 muestra la vista resultante.

Podemos ver fácilmente en este sencillo gráfico de barras que Manhattan tiene la mayor proporción de reciclaje respecto a la basura, pero que aún así sólo recicla aproximadamente una tonelada de material por cada cuatro toneladas de basura. La proporción de Manhattan es aproximadamente el doble que la del Bronx.

¿Significa esto que cada distrito comunitario de Manhattan tenía un índice de reciclaje mayor que cada distrito comunitario del Bronx? No necesariamente, ya que se trata de términos agregados.

¿Cómo comunicaríamos los resultados a nivel de distrito comunitario? Si simplemente sustituimos Borough por CommunityDistrict en la estantería Filas, obtendremos un gráfico de barras en el que estarán agregados todos los distritos comunitarios nº 1, y todos los distritos comunitarios nº 2, y así sucesivamente. Agregar los distritos comunitarios de esta forma no tiene mucho sentido. En su lugar, nos gustaría ver las proporciones de distritos comunitarios de cada municipio.

Figura 4-3. Visualización de la relación entre reciclaje y residuos en cada municipio

Para hacer esta comparación, hagamos clic y arrastremos la píldora Borough desde el estante Filas hasta el estante Columnas, y añadamos el campo CommunityDistrict del panel Medidas al estante Filas para crear una cuadrícula de gráficos de barras, como se muestra en la Figura 4-4.

Figura 4-4. Ratios por distrito comunitario y municipio

Desde este punto de vista, ahora podemos ver que, incluso dentro de los distritos, no todos los distritos comunitarios son iguales. El distrito comunitario nº 1 de Manhattan tiene la proporción más alta en general, pero está claro que algunos distritos comunitarios del Bronx tienen proporciones más altas que algunos de Manhattan.

Pero, ¿y si quisiéramos conocer las proporciones exactas? Los gráficos de barras de la Figura 4-4 permiten hacerse una idea general de las proporciones relativas de los distritos comunitarios, pero la precisión no es fácil de obtener, ¿verdad? ¿Puedes saber la proporción exacta del distrito comunitario nº 1 de Manhattan? Yo no puedo. Si conocer las cantidades precisas de es una tarea que nuestro público querrá realizar, tendremos que pensar en cómo facilitarle esa tarea.

Podríamos aumentar la precisión arrastrando el Recycle to Refuse Ratio desde el área de Medidas a la estantería de Etiquetas (o pulsando Ctrl y seleccionando AGG(Recycle to Refuse Ratio) y arrastrándolo desde la estantería de Columnas a la estantería de Etiquetas para duplicarlo). La cuadrícula resultante del gráfico de barras con etiquetas se muestra en la Figura 4-5.

Figura 4-5. Añadir etiquetas a la cuadrícula del gráfico de barras

Son muchos decimales, ¿verdad? Probablemente nuestro público no necesite conocer la proporción hasta el cuarto decimal (diezmilésimas). Podemos cambiar el número de dígitos mostrados haciendo clic con el botón derecho del ratón en Recycle to Refuse Ratio en el panel Medidas, seleccionando Propiedades por defecto, luego Formato de número y eligiendo Número (Personalizado). En el cuadro de diálogo resultante, cambiaremos los decimales a tres, como se muestra en la Figura 4-6.

Figura 4-6. Especificar el número de decimales en el panel Medidas

Observa que las etiquetas de la cuadrícula del gráfico de barras cambian en consecuencia.

Lo que realmente tenemos aquí es una tabla que se ha aumentado añadiendo barras con longitudes proporcionales a los valores de cada celda. Otra forma de mostrar esta comparación precisa es suprimir las barras y, en su lugar, colorear cada celda según la proporción: una tabla resaltada en .

Hagamos una tabla de resaltados empezando con una hoja nueva. Haz Ctrl-clic en Borough, CommunityDistrict, y Recycle to Refuse Ratio, y luego abre el panel Muéstrame y selecciona tabla de resaltados. Tableau crea la vista que se muestra en la Figura 4-7.

Figura 4-7. La tabla resaltada por defecto para la Relación Reciclaje/Residuos

Observa que Tableau ha creado una tabla resaltada que está "volteada" respecto a nuestra cuadrícula de gráfico de barras mostrada en la Figura 4-5 (Borough está en Filas en lugar de en Columnas, y CommunityDistrict está en Columnas en lugar de en Filas). Para voltearla para que coincida, simplemente haremos clic en el botón Intercambiar de la barra de herramientas, , lo que dará como resultado la tabla más alta que se muestra en la Figura 4-8.

Figura 4-8. La tabla resaltada con Filas y Columnas intercambiadas

Tableau ha adoptado por defecto una paleta de colores verde secuencial, lo que significa que el gradiente aumenta proporcionalmente con el incremento de Recycle to Refuse Ratio. Nuestros ojos pueden distinguir fácilmente la celda más oscura, y también encontramos la más clara con bastante facilidad. La mayoría de la gente puede distinguir entre unos seis niveles diferentes de intensidad. Si el objetivo fuera comunicar los valores precisos, podríamos haber creado una tabla sencilla sin los resaltados. Si añadimos los resaltados, será más fácil comparar rápidamente las celdas y encontrar los valores más alto y más bajo.

Sin embargo, sigue sin ser inmediatamente obvio qué distrito comunitario tiene la segunda proporción más alta. Nuestros ojos tienen que lanzarse a todas las celdas oscuras y leer y memorizar los valores. Al final nos decidimos por el distrito comunitario nº 6 de Brooklyn como el que tiene la segunda proporción más alta, pero la tarea se hace más difícil a medida que avanzamos. ¿Cuál tiene la tercera más alta? ¿El cuarto? ¿Hay alguna forma más fácil de facilitar esta evaluación del rango?

Lo que nos gustaría es una simple lista de distritos comunitarios en orden descendente de ratio. Para hacer esta lista, vamos a crear primero un nuevo campo que combine los campos Borough y CommunityDistrict en una única Dimensión.

Pulsa Ctrl y haz clic en Borough y CommunityDistrict para que ambos queden seleccionados, luego haz clic con el botón derecho del ratón en uno de los dos campos seleccionados (cualquiera de ellos servirá) y selecciona Combinar campos. Aparecerá un nuevo campo de cadena en el área Dimensiones llamado Borough & CommunityDistrict (Combined).

Crea la lista que se muestra en la Figura 4-9 arrastrando Borough & CommunityDistrict a la estantería Filas, Recycle to Refuse Ratio a la estantería Columnas y Borough a la estantería Color, ordenando en orden descendente.

Figura 4-9. Gráfico de barras de los distritos comunitarios

Ahora podemos saber rápidamente cuáles son los cuatro o cinco distritos más altos, y cuáles son los cuatro o cinco más bajos. Utilizando las barras de colores, también podemos ver algunas pautas, como que los distritos con la proporción más baja están todos en el Bronx (azul), y la mayoría de los diez primeros están en Manhattan (verde).

Pero si te pidiera que eligieras el décimo o el decimoquinto distrito, tendrías que contar hacia abajo desde arriba, ¿verdad? No es la tarea más fácil de realizar. ¿Cómo podemos añadir un rango a esta lista para elegir fácilmente el orden del 1 al 59?

Dos formas de añadir rango

Vamos a crear un campo Rank. Para ello, haz clic con el botón derecho del ratón en cualquier lugar del panel Dimensiones o Medidas de la izquierda y selecciona Crear un campo calculado una vez más. Esta vez, nombra el campo Rank y introduce INDEX(). En cuanto aparezca el mensaje en la parte inferior izquierda indicando que "el cálculo es válido", también aparecerá un texto azul en la parte superior derecha que dice "Cálculo de tabla por defecto". Haz clic en este texto azul y cambia el desplegable Calcular utilizando a Municipio y ComunidadDistrito (Combinado), como se muestra en en la Figura 4-10.

Figura 4-10. Creación de un rango para cada uno de los 59 distritos comunitarios

Esto indica a Tableau que el rango debe aplicarse a la combinación de Borough y CommunityDistrict.

Tras pulsar OK dos veces, ahora vemos un nuevo campo en el panel de Medidas llamado Rank. Observa que este campo es continuo (el símbolo # está en verde), pero podemos considerar que los rangos son enteros discretos, porque no hay ningún rango entre dos rangos sucesivos. Para cambiar el tipo de campo de datos Rank, haz clic sobre él con el botón derecho del ratón en el panel Medidas y selecciona Convertir a Discreto. El símbolo # junto a Rank se volverá azul , indicando que es discreto. Ya estamos listos para añadir Rank al gráfico.

Para añadir el campo Rank al gráfico de barras, basta con arrastrarlo a la izquierda de Borough & CommunityDistrict (Combined) en el estante Filas. Tras eliminar los divisores de filas, tenemos el gráfico de barras coloreado, ordenado y ahora clasificado que se muestra en la Figura 4-11.

Figura 4-11. Añadir el campo Rango al gráfico de barras

Alternativamente, desde el lanzamiento de la Versión 8.1, los usuarios pueden crear un campo Rank similar haciendo uso del nuevo Cálculo de Tabla de Rangos. Para ello, arrastra otra instancia de Recycle to Refuse Ratio al estante de columnas, haz clic en la flecha hacia abajo de la nueva píldora y cámbiala a Discreta, y luego vuelve a hacer clic en la flecha hacia abajo y selecciona Cálculo rápido de tabla y después Rango. Por último, vuelve a hacer clic en la flecha hacia abajo y selecciona Calcular utilizando, y luego elige Municipio ComunidadDistrito (combinado). (Este campo calculado también te permite manejar los empates de distintas formas).

Ahora, la única tarea que este gráfico no facilita es la de obtener valores precisos. Podríamos añadir las etiquetas a la derecha de las barras, como hicimos en la Figura 4-5, simplemente arrastrando el campo Ratio al estante Etiqueta, pero quizá sería mejor añadir las etiquetas a la izquierda de las barras para no interferir en la percepción de la longitud de las barras.

Como Recycle to Refuse Ratioes un campo de datos continuo (el símbolo #es verde), si lo arrastramos a la estantería Filas, a la derecha de Borough & CommunityDistrict, Tableau creará 59 ejes y para cada una de las barras. Pruébalo y verás a qué me refiero.

Sólo queremos que aparezca el valor de la proporción en sí, así que primero convertiremos Recycle to Refuse Ratio en un campo discreto del mismo modo que convertimos Rank, y luego arrastraremos la proporción a la estantería Filas, en el extremo derecho, dejando una pastilla azul y creando la vista actualizada que se muestra en la Figura 4-12.

Figura 4-12. Valores precisos añadidos a la izquierda de las barras

Ahora hemos visualizado la proporción de una forma que facilita a nuestro público la realización de varias tareas diferentes muy rápidamente:

  • Ten una idea general de cómo se comparan entre sí los 59 distritos comunitarios

  • Determina qué distritos tienen las ratios más altas y cuáles las más bajas

  • Hazte una idea general de qué distritos tienen distritos en la parte superior de la lista y cuáles tienen distritos en la parte inferior

  • Conocer la proporción exacta de cualquier distrito

  • Elige cualquier distrito por orden de rango (por ejemplo, el12 o el28)

Esta vista es una forma muy versátil y útil de comunicar la proporción entre reciclaje y basura. Pero no nos dice qué distritos comunitarios produjeron más basura en total por persona. Por lo que sabemos, los distritos de la parte superior pueden estar reciclando mucho, pero también pueden estar produciendo una cantidad mucho mayor por persona. Ahí es donde entran en juego las tasas .

Tarifas

Recuerda que una tasa no es más que un tipo especial de relación en la que el numerador y el denominador tienen unidades diferentes. En el ejemplo anterior, la relación entre reciclaje y basura incluía términos con las mismas unidades: toneladas. Cuando consideramos la tasa de producción de basura por persona, nuestro numerador siguen siendo las toneladas, pero ahora nuestro denominador es el número de personas.

Pero el conjunto de datos con el que hemos estado trabajando hasta ahora no incluye la población del distrito comunitario. Para determinar la producción de basura por persona, tendremos que encontrar la forma de incluir los datos de población en nuestro análisis.

Volviendo al proceso de descubrimiento de datos de la Figura 1-1, hemos dado toda la vuelta a la pista de caballos, y ahora tenemos una pregunta totalmente nueva que implica recopilar nuevos datos.

Lo ideal sería encontrar la población por distrito comunitario de septiembre de 2011, que es cuando se tomaron los datos de recogida de la DSNY. No podemos encontrar eso, pero podemos acercarnos: los datos del censo de 2010 nos sitúan a un año vista de los datos de recogida de basura, y probablemente sean adecuados para obtener una aproximación razonable de la tasa de producción de basura.

Ahora que hemos encontrado datos de población, ¿cómo podemos crear índices con ellos? Por suerte, Tableau nos permite conectar nuestro libro de trabajo actual a este nuevo conjunto de datos y "mezclarlo" con los datos existentes en el libro de trabajo.

Mezclar fuentes de datos

En el menú Datos de nuestro libro actual, selecciona Conectar con datos y luego Microsoft Excel, y navega hasta el archivo de datos de población, conectándote a la hoja correcta del archivo e importando los datos como un extracto. Ahora vemos que la nueva fuente de datos aparece en el área Datos junto con los datos de DSNY, como se muestra en la Figura 4-13.

Figura 4-13. Añadir una segunda fuente de datos a un libro de trabajo

El conjunto de datos recién importado aparece resaltado en el área Datos, y los campos de ese conjunto de datos se muestran en los paneles Dimensiones y Medidas de abajo. Si hacemos clic en el conjunto de datos DSNY, los campos de ese conjunto de datos se mostrarán a continuación.

Observa que CommunityDistrictestá en el panel Dimensiones del conjunto DSNY, pero está en el área Medidas de la nueva fuente de datos de población. Hagámoslos coincidir arrastrando CommunityDistrict desde el panel Medidas de la tabla de población al área Dimensiones.

Como ambas fuentes de datos tienen ahora una Dimensión llamada Borough y una Dimensión llamada CommunityDistrict, Tableau las vinculará por nosotros. Si los campos a enlazar tuvieran nombres diferentes, tendríamos que enlazarlos manualmente mediante Datos Editar relaciones.

Visualizar las tasas

Ahora que hemos vinculado estas dos fuentes de datos, nuestro libro de trabajo actualizado de Tableau contiene ambos términos de la tasa de basura por persona: la medida de la cantidad de basura en toneladas (el numerador) y el recuento del número de personas en cada distrito de la comunidad (el denominador). Crearemos la tasa del mismo modo que creamos la ratio en el apartado anterior, pero ahora tenemos que crear un campo calculado que incluya campos de dos fuentes distintas, como se muestra en la Figura 4-14.

Figura 4-14. Crear una tasa utilizando campos de dos fuentes de datos

Utilizar el tipo de agregación SUM para ambos términos de la tasa significa que podemos obtener tasas significativas tanto para los municipios como para los distritos comunitarios. Además, observa que estamos convirtiendo de toneladas cortas (US) a libras (lbs.) multiplicando el numerador por 2.000, que es el número de libras que hay en cada tonelada. Por persona, nos resulta mucho más fácil pensar en términos de libras, por lo que es una unidad más adecuada para esta comparación.

Ahora que hemos creado la tasa, podemos visualizarla. Seguiremos los mismos pasos que utilizamos para crear el gráfico de barras de proporciones de la Figura 4-12 para crear el gráfico de barras de comparación de tasas que se muestra en la Figura 4-15.

Figura 4-15. Comparar tasas en un gráfico de barras

De esta vista se desprende claramente que los tres distritos comunitarios de Staten Island produjeron la mayor cantidad de basura por persona en septiembre de 2011, a razón de más de 70 libras por persona.

Advertencia

Una advertencia sobre estos resultados: a menudo, la visualización y el análisis de datos se utilizan mejor para proponer nuevas preguntas que formular. Los datos son estupendos para ayudarnos a hacer comparaciones, pero no siempre responden al "¿por qué?" y al "¿cómo?". Puede resultarnos fácil sacar conclusiones precipitadas basándonos en lo que muestran los datos, pero a menudo es necesaria una investigación cualitativa más profunda.

¿Por qué están los distritos comunitarios de Staten Island en la parte superior de este gráfico? El gráfico en sí no nos lo dice. Nos ayuda a formular la siguiente pregunta. ¿Significa esto que cada persona que vive en Staten Island produjo de 70 a 80 kilos de basura ese mes? No, eso no es lo que muestran los datos. Los datos sólo muestran cuánta basura se recogió en sus comunidades. El DSNY proporcionó la basura total recogida, no sólo la de las residencias, así que tal vez haya industrias o empresas en Staten Island que produjeron mucha basura.

La cuestión es tener cuidado con lo que comunicamos, y no comunicar más de lo que los datos nos dan licencia para decir.

Resumen

En este capítulo, aprendimos a utilizar Campos Calculados y fuentes de datos combinadas para crear ratios (cocientes) y tasas (cocientes con unidades mixtas). También aprendimos la función Índice, así como el cálculo de tablas de clasificación, y creamos tablas resaltadas y gráficos de barras para comparar distintas dimensiones, tanto a nivel de municipio como de distrito comunitario, lo que nos permitió ir más allá de las cantidades globales ("cuánto") y considerar las cantidades relativas ("cuánto por").

En el próximo capítulo, consideraremos otro tipo de comparación normalizada: proporciones y porcentajes .

Get Comunicar datos con Tableau now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.