Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Si eres científico, analista, consultor o cualquier otra persona que tenga que preparar documentos o informes técnicos, una de las habilidades más importantes que debes tener es la capacidad de hacer visualizaciones de datos convincentes, generalmente en forma de figuras. Las figuras son las que suelen llevar el peso de tus argumentos. Tienen que ser claras, atractivas y convincentes. La diferencia entre unas buenas y unas malas cifras puede ser la diferencia entre un artículo muy influyente o uno poco conocido, una subvención o un contrato ganado o perdido, una entrevista de trabajo que ha salido bien o mal. Y, sin embargo, hay sorprendentemente pocos recursos que te enseñen a hacer visualizaciones de datos convincentes. Pocas universidades ofrecen cursos sobre este tema, y tampoco hay muchos libros al respecto. (Algunos existen, por supuesto.) Los tutoriales de software de trazado suelen centrarse en cómo conseguir efectos visuales concretos, en lugar de explicar por qué se prefieren ciertas opciones y otras no. En tu trabajo diario, simplemente se espera de ti que sepas hacer buenas figuras, y si tienes suerte tienes un asesor paciente que te enseña algunos trucos mientras escribes tus primeros artículos científicos.
En el contexto de la escritura, los editores experimentados hablan de "oído", la capacidad de oír (internamente, mientras lees una pieza de prosa) si la escritura es buena. Creo que cuando se trata de cifras y otras visualizaciones, también necesitamos "ojo", la capacidad de mirar una cifra y ver si es equilibrada, clara y convincente. Y al igual que ocurre con la escritura, la capacidad de ver si una figura funciona o no puede aprenderse. Tener "ojo" significa principalmente que eres consciente de un conjunto más amplio de reglas y principios sencillos de buena visualización, y que prestas atención a pequeños detalles que otras personas podrían no prestar.
En mi experiencia, de nuevo igual que en la escritura, no se desarrolla la vista leyendo un libro durante un fin de semana. Es un proceso que dura toda la vida, y los conceptos que hoy te resultan demasiado complejos o sutiles pueden tener mucho más sentido dentro de cinco años. Puedo decir en mi favor que sigo evolucionando en mi comprensión de la preparación de figuras. Intento exponerme habitualmente a nuevos enfoques, y presto atención a las elecciones visuales y de diseño que otros hacen en sus figuras. También estoy abierto a cambiar de opinión. Puede que hoy considere estupenda una figura determinada, pero el mes que viene puede que encuentre un motivo para criticarla. Así que, teniendo esto en cuenta, por favor, no tomes nada de lo que diga como un evangelio. Piensa críticamente en mis razonamientos para determinadas elecciones y decide si quieres adoptarlas o no.
Aunque los materiales de este libro se presentan en una progresión lógica, la mayoría de los capítulos pueden ser independientes, y no hay necesidad de leer el libro de principio a fin. Siéntete libre de ir saltando, de elegir una sección específica que te interese en ese momento, o una que cubra una elección de diseño concreta que estés sopesando. De hecho, creo que sacarás el máximo partido de este libro si no lo lees todo de una vez, sino que lo lees poco a poco a lo largo de periodos de tiempo más prolongados, tratando de aplicar sólo algunos conceptos del libro en tu creación de figuras, y volviendo a leer otros conceptos o releyendo secciones sobre conceptos que aprendiste hace tiempo. Puede que descubras que el mismo capítulo te dice cosas diferentes si lo relees pasados unos meses.
Aunque casi todas las figuras de este libro se han hecho con R y ggplot2, no lo considero un libro de R. Hablo de principios generales de elaboración de figuras. El software utilizado para hacer las figuras es incidental. Puedes utilizar cualquier software de trazado que desees para generar los tipos de figuras que muestro aquí. Sin embargo, ggplot2 y paquetes similares hacen que muchas de las técnicas que utilizo sean mucho más sencillas que otras bibliotecas de trazado. Es importante destacar que, como éste no es un libro de R, no hablo de código ni de técnicas de programación en ninguna parte del libro. Quiero que te centres en los conceptos y las figuras, no en el código. Si tienes curiosidad por saber cómo se hizo alguna de las figuras, puedes consultar el código fuente del libro en su repositorio de GitHub.
Reflexiones sobre el software gráfico y los procesos de preparación de figuras
Tengo más de dos décadas de experiencia en la preparación de figuras para publicaciones científicas y he realizado miles de figuras. Si ha habido una constante a lo largo de estas dos décadas, ha sido el cambio en las tuberías de preparación de figuras. Cada pocos años, se desarrolla una nueva biblioteca de trazado o surge un nuevo paradigma, y grandes grupos de científicos se pasan al nuevo conjunto de herramientas de moda. He hecho figuras utilizando gnuplot, Xfig, Mathematica, Matlab, matplotlib en Python, R base, ggplot2 en R, y posiblemente otras que actualmente no recuerdo. Mi método preferido actualmente es ggplot2 en R, pero no creo que siga utilizándolo hasta que me jubile.
Este cambio constante en las plataformas de software es una de las razones clave por las que este libro no es un libro de programación y por las que he omitido todos los ejemplos de código. Quiero que este libro te sea útil independientemente del software que utilices, y quiero que siga siendo valioso incluso cuando todo el mundo haya dejado ggplot2 y esté utilizando la siguiente novedad. Soy consciente de que esta elección puede resultar frustrante para algunos usuarios de ggplot2 a los que les gustaría saber cómo hice una determinada figura. Sin embargo, cualquiera que sienta curiosidad por mis técnicas de codificación puede leer el código fuente del libro. Está disponible. Además, en el futuro puede que publique un documento complementario centrado sólo en el código.
Una cosa que he aprendido a lo largo de los años es que la automatización es tu amiga. Creo que las figuras deben autogenerarse como parte del proceso de análisis de datos (que también debe automatizarse), y deben salir del proceso listas para ser enviadas a la imprenta, sin necesidad de posprocesamiento manual. Veo que muchos aprendices autogeneran borradores de sus figuras, que luego importan a Illustrator para retocarlos. Hay varias razones por las que esto es una mala idea. En primer lugar, en el momento en que editas manualmente una figura, tu figura final se vuelve irreproducible. Un tercero no puede generar exactamente la misma figura que tú. Aunque esto puede no importar mucho si lo único que hiciste fue cambiar el tipo de letra de las etiquetas de los ejes, las líneas son borrosas, y es fácil cruzar a un territorio en el que las cosas están menos claras. Por ejemplo, supongamos que quieres sustituir manualmente etiquetas crípticas por otras más legibles. Es posible que un tercero no pueda verificar que la sustitución de las etiquetas ha sido adecuada. En segundo lugar, si añades mucho postprocesamiento manual a tu proceso de preparación de figuras, serás más reacio a hacer cambios o a rehacer tu trabajo. Así, puede que ignores las peticiones razonables de cambio que te hagan tus colaboradores o colegas, o que sientas la tentación de reutilizar una figura antigua aunque en realidad hayas regenerado todos los datos. En tercer lugar, puede que tú mismo olvides qué hiciste exactamente para preparar una figura determinada, o que no seas capaz de generar una figura futura con datos nuevos que coincida exactamente visualmente con tu figura anterior. No son ejemplos inventados. Los he visto todos con personas y publicaciones reales.
Por todas estas razones, los programas de trazado interactivo son una mala idea, ya que te obligan intrínsecamente a preparar manualmente tus figuras. De hecho, probablemente sea mejor autogenerar un borrador de figura y retocarlo en Illustrator que hacer toda la figura a mano en algún programa de trazado interactivo. Ten en cuenta que Excel también es un programa de trazado interactivo y no se recomienda para la preparación de figuras (ni para el análisis de datos).
Un componente crítico en un libro sobre visualización de datos es la viabilidad de las visualizaciones propuestas. Es bonito inventar un nuevo y elegante tipo de visualización, pero si nadie puede generar fácilmente cifras utilizando esta visualización, entonces no sirve de mucho. Por ejemplo, cuando Tufte propuso por primera vez las sparklines, nadie tenía una forma fácil de hacerlas. Aunque necesitamos visionarios que hagan avanzar el mundo ampliando los límites de lo posible, pretendo que este libro sea práctico y directamente aplicable a los científicos de datos en activo que preparan cifras para sus publicaciones. Por tanto, las visualizaciones que propongo en los capítulos siguientes pueden generarse con unas pocas líneas de código R mediante ggplot2 y paquetes de extensión fácilmente disponibles. De hecho, casi todas las figuras de este libro, a excepción de unas pocas figuras de los Capítulos 26,27 y 28, se autogeneraron exactamente como se muestran.
Convenciones utilizadas en este libro
En este libro se utilizan las siguientes convenciones tipográficas:
- Cursiva
-
Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.
Constant width
-
Se utiliza para referirse a elementos del programa como nombres de variables o funciones, sentencias y palabras clave.
Consejo
Este elemento significa un consejo o sugerencia.
Nota
Este elemento significa una nota general.
Advertencia
Este elemento indica una advertencia o precaución.
Utilizar ejemplos de código
El material complementario puede descargarse en https://github.com/clauswilke/dataviz.
Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir un CD-ROM de ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.
Agradecemos, pero no exigimos, la atribución. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Fundamentos de la visualización de datos por Claus O. Wilke (O'Reilly). Copyright 2019 Claus O. Wilke, 978-1-492-03108-6".
Puede que descubras que otros usos entran dentro del ámbito del uso legítimo (por ejemplo, reutilizar algunas figuras del libro). Si crees que el uso que haces de los ejemplos de código o de otros contenidos queda fuera del uso legítimo o del permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en permissions@oreilly.com.
Aprendizaje en línea O'Reilly
Nota
Durante casi 40 años, O'Reilly Media ha proporcionado formación, conocimientos y perspectivas sobre tecnología y negocios para ayudar a las empresas a alcanzar el éxito.
Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos, conferencias y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita http://oreilly.com.
Cómo contactar con nosotros
Dirige tus comentarios y preguntas sobre este libro a la editorial:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Norte
- Sebastopol, CA 95472
- 800-998-9938 (en Estados Unidos o Canadá)
- 707-829-0515 (internacional o local)
- 707-829-0104 (fax)
Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en http://bit.ly/fundamentals-of-data-visualization.
Para hacer comentarios o preguntas técnicas sobre este libro, envía un correo electrónico a bookquestions@oreilly.com.
Para más información sobre nuestros libros, cursos, conferencias y noticias, consulta nuestro sitio web en http://www.oreilly.com.
Encuéntranos en Facebook: http://facebook.com/oreilly
Síguenos en Twitter: http://twitter.com/oreillymedia
Míranos en YouTube: http://www.youtube.com/oreillymedia
Agradecimientos
Este proyecto no habría sido posible sin el fantástico trabajo que el equipo de RStudio ha realizado para convertir el universo de R en una plataforma de publicación de primer orden. En particular, tengo que dar las gracias a Hadley Wickham por crear ggplot2, el software de trazado que se utilizó para hacer todas las figuras a lo largo de este libro. También quiero dar las gracias a Yihui Xie por crear R Markdown y por escribir los paquetes knitr
y bookdown
. No creo que hubiera empezado este proyecto sin estas herramientas listas para usar. Escribir archivos R Markdown es divertido, y es fácil recopilar material y coger impulso. Doy las gracias especialmente a Achim Zeileis y Reto Stauffer por colorspace
, a Thomas Lin Pedersen por ggforce
ygganimate
, a Kamil Slowikowski por ggrepel
, a Edzer Pebesma por sf
, y a Claire McWhite por su trabajo en colorspace
y colorblindr
para simular la deficiencia de visión cromática en las figuras ensambladas en R.
Varias personas me han proporcionado útiles comentarios sobre versiones preliminares de este libro. Sobre todo, Mike Loukides, mi editor en O'Reilly, y Steve Haroz han leído y comentado cada capítulo. También he recibido comentarios útiles de Carl Bergstrom, Jessica Hullman, Matthew Kay, Tristan Mahr, Edzer Pebesma, Jon Schwabish y Hadley Wickham. El blog de Len Kiefer y el libro y las publicaciones en el blog de Kieran Healy han proporcionado numerosas inspiraciones para hacer figuras y utilizar conjuntos de datos. Varias personas me han señalado pequeños problemas o erratas, como Thiago Arrais, Malcolm Barrett, Jessica Burnett, Jon Calder, Antônio Pedro Camargo, Daren Card, Kim Cressman, Akos Hajdu, Thomas Jochmann, Andrew Kinsman, Will Koehrsen, Alex Lalejini, John Leadley, Katrin Leinweber, Mikel Madina, Claire McWhite, S'busiso Mkhondwane, José Nazario, Steve Putman, Maëlle Salmon, Christian Schudoma, James Scott-Brown, Enrico Spinielli, Wouter van der Bijl y Ron Yurko.
También me gustaría dar las gracias de forma más general a todos los demás colaboradores del tidyverse y a la comunidad de R en general. Realmente existe un paquete de R para cualquier reto de visualización que uno pueda encontrarse. Todos estos paquetes han sido desarrollados por una amplia comunidad de miles de científicos de datos y estadísticos, y muchos de ellos han contribuido de alguna forma a la elaboración de este libro.
Por último, me gustaría dar las gracias a mi esposa Stefania por soportar pacientemente muchas tardes y fines de semana en los que me pasaba horas delante del ordenador escribiendo código ggplot2, obsesionándome con detalles minuciosos de ciertas cifras y dando cuerpo a los detalles de los capítulos.
Get Fundamentos de la visualización de datos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.