Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

¡Bienvenido/a! Si has cogido este libro, es probable que seas uno de los muchos millones de personas intrigadas por los procesos y posibilidades que rodean a los "datos", esa increíble y escurridiza nueva "moneda" que está transformando la forma en que vivimos, trabajamos e incluso nosrelacionamos entre nosotros. La mayoría de nosotros, por ejemplo, somos vagamente conscientes de que los datos -recogidos por nuestros dispositivos electrónicos y otras actividades- se utilizan para determinar qué anuncios vemos, qué medios se nos recomiendan y qué resultados de búsqueda aparecen en primer lugar cuando buscamos algo en Internet. Lo que muchas personas no saben es que tienen a su disposición las herramientas y habilidades para acceder a los datos, transformarlos y generar conocimiento a partir de ellos. Este libro pretende ayudar a esas personas -a ti, si quieres- a hacer precisamente eso.

Los datos no son algo que sólo esté disponible o sea útil para las grandes empresas o los expertos en números del gobierno. Ser capaz de acceder a los datos, comprenderlos y obtener información a partir de ellos es una habilidad valiosa, tanto si eres un científico de datos como si trabajas en una guardería. Las herramientas necesarias para utilizar los datos con eficacia son más accesibles que nunca. No sólo puedes hacer un trabajo de datos importante utilizando únicamente software y lenguajes de programación gratuitos, sino que ni siquiera necesitas un ordenador caro. Todos los ejercicios de este libro, por ejemplo, se diseñaron y ejecutan en un Chromebook que cuesta menos de 500 $. Incluso puedes limitarte a utilizar plataformas online gratuitas a través de la conexión a Internet de tu biblioteca local.

El objetivo de este libro es proporcionar la orientación y la confianza que los principiantes en datos necesitan para empezar a explorar el mundo de los datos, primero accediendo a ellos y luego evaluando su calidad. Una vez sentadas estas bases, pasaremos a algunos de los métodos básicos de análisis y presentación de datos para generar una visión significativa. Aunque estas últimas secciones distarán mucho de ser exhaustivas (tanto el análisis como la visualización de datos son campos sólidos en sí mismos), te proporcionarán las habilidades básicas necesarias para generar análisis y visualizaciones precisos e informativos utilizando tus datos recién limpiados y adquiridos.

¿Quién debería leer este libro?

Este libro está pensado para verdaderos principiantes; todo lo que necesitas son unos conocimientos básicos de informática (por ejemplo, cómo descargar un archivo, abrir un programa, copiar y pegar, etc.), una mente abierta y ganas de experimentar. Te animo especialmente a que te arriesgues con este libro si eres alguien que se siente intimidado por los datos o la programación, si se te dan "mal las matemáticas" o imaginas que trabajar con datos o aprender a programar es demasiado difícil para ti. He pasado casi una década enseñando a cientos de personas que no se consideraban "técnicas" las habilidades exactas contenidas en este libro, y ni una sola vez he tenido un estudiante que fuera realmente incapaz de superar este material. Según mi experiencia, lo más difícil de programar y trabajar con datos no es la dificultad del material, sino la calidad de la enseñanza.1 Estoy agradecido tanto a los muchos estudiantes a lo largo de los años cuyas preguntas me han ayudado inconmensurablemente a encontrar formas de transmitir mejor este material, como por la oportunidad de compartir lo que aprendí de ellos con tantos otros a través de este libro. Aunque un libro no puede sustituir realmente al tipo de apoyo proporcionado por un profesor humano, espero que al menos te proporcione las herramientas que necesitas para dominar lo básico, y tal vez la inspiración para llevar esas habilidades al siguiente nivel.

Este libro también resultará útil a quienes tengan cierta experiencia en el manejo de datos, pero hayan alcanzado los límites de las herramientas de hoja de cálculo o deseen ampliar la gama de formatos de datos a los que pueden acceder y manipular fácilmente, así como a quienes tengan conocimientos de programación front-end (en JavaScript o PHP, por ejemplo) y busquen una forma de iniciarse en Python.

¿Quién no debería leer este libro?

Como se ha indicado anteriormente, este libro está pensado para principiantes. Así que, aunque algunas secciones pueden resultarte útiles si eres nuevo en el análisis o la visualización de datos, este volumen no está diseñado para servir a quienes tienen experiencia previa en Python u otro lenguaje de programación centrado en los datos (como R). Afortunadamente, O'Reilly tiene muchos volúmenes especializados que tratan temas y bibliotecas avanzados de Python, como Python for Data Analysis de Wes McKinney (O'Reilly) o el Python Data Science Handbook de Jake VanderPlas (O'Reilly).

Qué esperar de este volumen

El contenido de este libro está diseñado para seguirse en el orden presentado, ya que los conceptos y ejercicios de cada capítulo se basan en los explorados anteriormente. Sin embargo, a lo largo de todo el libro verás que los ejercicios se presentan de dos formas: como "cuadernos" de código y como archivos de programación "independientes". El propósito de esto es doble. En primer lugar, te permite a ti, el lector, utilizar el enfoque que prefieras o te resulte más accesible; en segundo lugar, proporciona una forma de comparar estos dos métodos de interactuar con el código Python basado en datos. Según mi experiencia, los "cuadernos" de Python son extremadamente útiles para ponerse en marcha rápidamente, pero pueden resultar tediosos si desarrollas un fragmento de código fiable que deseas ejecutar repetidamente. Dado que el código de un formato a menudo no puede copiarse y pegarse en el otro, ambos se proporcionan en el repositorio GitHub adjunto. Los archivos de datos también están disponibles en Google Drive. A medida que sigas los ejercicios, podrás utilizar el formato que prefieras y también tendrás la opción de ver de primera mano las diferencias en el código de cada formato.

Aunque Python es la principal herramienta utilizada en este libro, la gestión y el análisis eficaces de los datos se facilitan mediante el uso inteligente de una serie de herramientas, desde editores de texto (los programas en los que realmente escribirás tu código) hasta programas de hojas de cálculo. Por ello, en este libro hay ejercicios ocasionales que se basan en otras herramientas gratuitas y/o de código abierto además de Python. Siempre que se presenten, ofreceré algún contexto sobre por qué se ha elegido esa herramienta, junto con instrucciones suficientes para completar la tarea del ejemplo.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.

Monospaced

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Monospaced bold

Muestra comandos u otros textos que deben ser tecleados literalmente por el usuario.

Monospaced italic

Muestra el texto que debe sustituirse por valores proporcionados por el usuario o por valores determinados por el contexto.

Consejo

Este elemento significa un consejo o sugerencia.

Nota

Este elemento significa una nota general.

Advertencia

Este elemento indica una advertencia o precaución.

Utilizar ejemplos de código

El material complementario (ejemplos de código, ejercicios, etc.) se puede descargar enhttps://github.com/PracticalPythonDataWranglingAndQuality.

Si tienes una pregunta técnica o un problema al utilizar los ejemplos de código, envía un correo electrónico a

El código de este libro está aquí para ayudarte a desarrollar tus habilidades. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.

Agradecemos la atribución, pero en general no la exigimos. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Practical Python Data Wrangling and Data Quality por Susan E. McGregor (O'Reilly). Copyright 2022 Susan E. McGregor, 978-1-492-09150-9".

Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita http://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Norte
  • Sebastopol, CA 95472
  • 800-998-9938 (en Estados Unidos o Canadá)
  • 707-829-0515 (internacional o local)
  • 707-829-0104 (fax)

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://www.oreilly.com/library/view/practical-python-data/9781492091493.

Envía un correo electrónico para comentar o hacer preguntas técnicas sobre este libro.

Para obtener noticias e información sobre nuestros libros y cursos, visita http://oreilly.com.

Encuéntranos en Facebook: http://facebook.com/oreilly

Síguenos en Twitter: http://twitter.com/oreillymedia

Míranos en YouTube: http://www.youtube.com/oreillymedia

Agradecimientos

Como mencioné anteriormente, este libro debe mucho a mis muchos alumnos a lo largo de los años, que fueron lo suficientemente valientes como para probar algo nuevo y formular preguntas sinceras a lo largo del camino. El proceso de escribir este libro (por no hablar del texto en sí) mejoró inconmensurablemente gracias a mi editor, Jeff Bleiel, cuya amabilidad, flexibilidad y toque ligero atemperaron mis excesos a la vez que dejaban espacio para mi estilo personal. También agradezco los atentos y generosos comentarios de mis revisores: Joanna S. Kao, Anne Bonner y Randy Au.

También me gustaría dar las gracias a Jess Haberman, que me ofreció la oportunidad de hacer mío este material, así como a Jacqueline Kazil y Katharine Jarmul, que me ayudaron a ponerme en su camino. También quiero dar las gracias a Jeannette Wing y Cliff Stein y al personal del Instituto de Ciencia de Datos de la Universidad de Columbia, cuyo interés por este trabajo ya ha contribuido a que genere nuevas e interesantes oportunidades. Y, por supuesto, quiero dar las gracias a mis amigos y familiares por su interés y apoyo, incluso -y especialmente- cuando no tenían ni idea de lo que estaba hablando.

Por último, quiero dar las gracias a mi familia (incluidos los niños demasiado pequeños para leer esto) por seguir apoyándome incluso cuando llegan los días tristes de Bob Esponja. Vosotros hacéis que el trabajo merezca la pena.

1 Durante mucho tiempo, instalar las herramientas también fue un gran obstáculo. Ahora sólo necesitas una conexión a Internet.

Get Tramitación práctica de datos y calidad de datos en Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.