Capítulo 12. Manipular y enredar datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Si torturas los datos lo suficiente, la naturaleza siempre confesará.

Ronald Coase

Hasta este punto, hemos hablado principalmente del lenguaje Python en sí: sus tipos de datos, estructuras de código, sintaxis, etc. El resto de este libro trata sobre la aplicación de todo ello a problemas del mundo real.

En este capítulo, aprenderás muchas técnicas prácticas para domar los datos. A veces, esto se denomina moldear los datos, o el ETL(extraer/transformar/cargar) más empresarial del mundo de las bases de datos. Aunque los libros de programación no suelen tratar el tema explícitamente, los programadores pasan mucho tiempo intentando moldear los datos para darles la forma adecuada a sus propósitos.

La especialidad llamada ciencia de datos se ha hecho muy popular en los últimos años. Un artículo de Harvard Business Review calificó al científico de datos como el "trabajo más sexy del siglo 21." Si esto significa con demanda y bien pagado, entonces de acuerdo, pero también hay más que suficiente trabajo pesado. La ciencia de datos va más allá de los requisitos ETL de las bases de datos, a menudo implicando el aprendizaje automático para desenterrar conocimientos que no eran visibles a los ojos humanos.

Empezaré con los formatos de datos básicos y luego iré subiendo hasta llegar a las nuevas herramientas más útiles para la ciencia ...

Get Introducción a Python, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.