Prefacio a la primera edición
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Ciencia de datos
El científico de datos ha sido llamado "el trabajo más sexy del siglo XXI", presumiblemente por alguien que nunca ha visitado un parque de bomberos. No obstante, la ciencia de los datos es un campo en auge y en crecimiento, y no hace falta ser un gran detective para encontrar analistas que pronostican sin aliento que en los próximos 10 años necesitaremos miles y miles de millones de científicos de datos más de los que tenemos actualmente.
Pero, ¿qué es la ciencia de datos? Al fin y al cabo, no podemos producir científicos de datos si no sabemos qué es la ciencia de datos. Según un diagrama de Venn algo famoso en el sector, la ciencia de datos se encuentra en la intersección de:
-
Habilidades de pirateo
-
Conocimientos de matemáticas y estadística
-
Experiencia sustantiva
Aunque en un principio tenía la intención de escribir un libro que abarcara los tres, enseguida me di cuenta de que un tratamiento exhaustivo de la "pericia sustantiva" requeriría decenas de miles de páginas. En ese momento, decidí centrarme en las dos primeras. Mi objetivo es ayudarte a desarrollar las habilidades de hacking que necesitarás para empezar a hacer ciencia de datos. Y mi objetivo es ayudarte a que te sientas cómodo con las matemáticas y la estadística que constituyen el núcleo de la ciencia de datos.
Se trata de una aspiración un tanto pesada para un libro. La mejor forma de aprender a hackear es hackeando cosas. Al leer este libro, comprenderás cómo hackeo yo las cosas, lo que no tiene por qué ser necesariamente la mejor forma de hackearlas para ti. Conocerás algunas de las herramientas que utilizo, que no serán necesariamente las mejores para ti. Comprenderás mi forma de abordar los problemas de datos, que no tiene por qué ser la mejor para ti. La intención (y la esperanza) es que mis ejemplos te inspiren para intentar las cosas a tu manera. Todo el código y los datos del libro están disponibles enGitHub para que puedas empezar.
Del mismo modo, la mejor forma de aprender matemáticas es haciendo matemáticas. Este no es un libro de matemáticas y, en su mayor parte, no "haremos matemáticas". Sin embargo, en realidad no puedes hacer ciencia de datos sin entender algo de probabilidad y estadística y álgebra lineal. Esto significa que, cuando proceda, nos sumergiremos en ecuaciones matemáticas, intuición matemática, axiomas matemáticos y versiones animadas de grandes ideas matemáticas. Espero que no tengas miedo de sumergirte conmigo.
A lo largo de todo ello, también espero darte la sensación de que jugar con datos es divertido, porque, bueno, ¡jugar con datos es divertido! (Especialmente comparado con algunas de las alternativas, como la preparación de impuestos o la minería del carbón).
Desde cero
Hay montones y montones de bibliotecas, marcos, módulos y conjuntos de herramientas de la ciencia de datos que implementan de forma eficiente los algoritmos y técnicas más comunes (y también los menos comunes) de la ciencia de datos. Si te conviertes en un científico de datos, te familiarizarás íntimamente con NumPy, con scikit-learn, con pandas y con una panoplia de otras bibliotecas. Son geniales para hacer ciencia de datos. Pero también son una buena forma de empezar a hacer ciencia de datos sin entender realmente la ciencia de datos.
En este libro, abordaremos la ciencia de datos desde cero. Eso significa que construiremos herramientas e implementaremos algoritmos a mano para comprenderlos mejor. He puesto mucho empeño en crear implementaciones y ejemplos claros, bien comentados y legibles. En la mayoría de los casos, las herramientas que construyamos serán esclarecedoras pero poco prácticas. Funcionarán bien con pequeños conjuntos de datos de juguete, pero fracasarán con los de "escala web".
A lo largo del libro, te indicaré bibliotecas que puedes utilizar para aplicar estas técnicas a conjuntos de datos más grandes, pero no las utilizaremos aquí.
Existe un sano debate sobre cuál es el mejor lenguaje para aprender ciencia de datos. Mucha gente cree que es el lenguaje de programación estadística R. (A esa gente la llamamos equivocada.) Unos pocos sugieren Java o Scala. Sin embargo, en mi opinión, Python es la elección obvia.
Python tiene varias características que lo hacen muy adecuado para aprender (y hacer) ciencia de datos:
-
Es gratis.
-
Es relativamente sencillo de codificar (y, sobre todo, de entender).
-
Tiene muchas bibliotecas útiles relacionadas con la ciencia de datos.
Tengo mis dudas a la hora de llamar a Python mi lenguaje de programación favorito. Hay otros lenguajes que me parecen más agradables, mejor diseñados o simplemente más divertidos para programar. Y, sin embargo, casi siempre que empiezo un nuevo proyecto de ciencia de datos, acabo utilizando Python. Cada vez que necesito crear rápidamente un prototipo de algo que funcione, acabo usando Python. Y cada vez que quiero demostrar conceptos de la ciencia de datos de forma clara y fácil de entender, acabo utilizando Python. En consecuencia, este libro utiliza Python.
El objetivo de este libro no es enseñarte Python. (Aunque es casi seguro que leyendo este libro aprenderás algo de Python). Te llevaré a través de un curso intensivo por capítulos que destaca las características más importantes para nuestros propósitos, pero si no sabes nada sobre programación en Python (o sobre programación en absoluto), entonces puede que quieras complementar este libro con algún tipo de tutorial de "Python para principiantes".
El resto de nuestra introducción a la ciencia de datos adoptará este mismo enfoque: entrar en detalles cuando parezca crucial o esclarecedor, y otras veces dejar los detalles para que los descubras por ti mismo (o los busques en Wikipedia).
A lo largo de los años, he formado a varios científicos de datos. Aunque no todos se han convertido en estrellas ninja de los datos que cambian el mundo, los he dejado mejores científicos de datos de lo que los encontré. Y he llegado a creer que cualquiera que tenga cierta aptitud matemática y cierta habilidad para la programación tiene la materia prima necesaria para hacer ciencia de datos. Todo lo que necesita es una mente inquisitiva, la voluntad de trabajar duro y este libro. De ahí este libro.
Get Ciencia de datos desde cero, 2ª edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.