Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
¿Cómo surgió este libro? El origen está profundamente arraigado en nuestro viaje de la ciencia de datos a la ingeniería de datos. A menudo nos referimos en broma a nosotros mismos como científicos de datos en recuperación. Ambos tuvimos la experiencia de ser asignados a proyectos de ciencia de datos, y luego luchar para ejecutar estos proyectos debido a la falta de fundamentos adecuados. Nuestro viaje hacia la ingeniería de datos comenzó cuando emprendimos tareas de ingeniería de datos para construir los cimientos y la infraestructura.
Con el auge de la ciencia de datos, las empresas derrocharon en talento científico de datos, con la esperanza de cosechar grandes recompensas. Muy a menudo, los científicos de datos se enfrentaban a problemas básicos que su formación no abordaba: recopilación de datos, limpieza de datos, acceso a datos, transformación de datos e infraestructura de datos. Estos son los problemas que la ingeniería de datos pretende resolver.
Lo que este libro no es
Antes de que cubra de qué trata este libro y lo que obtendrás de él, vamos a cubrir rápidamente lo que este libro no es. Este libro no trata sobre la ingeniería de datos utilizando una herramienta, tecnología o plataforma concreta. Aunque muchos libros excelentes abordan las tecnologías de ingeniería de datos desde esta perspectiva, estos libros tienen una vida útil corta. En su lugar, nos centramos en los conceptos fundamentales de la ingeniería de datos.
De qué trata este libro
Este libro pretende llenar un vacío en los contenidos y materiales actuales sobre ingeniería de datos. Aunque no escasean los recursos técnicos que abordan herramientas y tecnologías específicas de la ingeniería de datos, a la gente le cuesta entender cómo ensamblar estos componentes en un todo coherente que se aplique en el mundo real. Este libro une los puntos del ciclo de vida de los datos de principio a fin. Te muestra cómo unir varias tecnologías para satisfacer las necesidades de los consumidores de datos posteriores, como analistas, científicos de datos e ingenieros de aprendizaje automático. Este libro funciona como complemento de los libros de O'Reilly que cubren los detalles de tecnologías, plataformas y lenguajes de programación concretos.
La gran idea de este libro es el ciclo de vida de la ingeniería de datos: generación, almacenamiento, ingestión, transformación y servicio de datos. Desde los albores de los datos, hemos visto el auge y la caída de innumerables tecnologías y productos de proveedores específicos, pero las etapas del ciclo de vida de la ingeniería de datos han permanecido esencialmente inalteradas. Con este marco, el lector obtendrá una sólida comprensión para aplicar las tecnologías a los problemas empresariales del mundo real.
Nuestro objetivo aquí es trazar principios que abarquen dos ejes. En primer lugar, deseamos destilar la ingeniería de datos en principios que puedan abarcar cualquier tecnología relevante. En segundo lugar, deseamos presentar principios que superen la prueba del tiempo. Esperamos que estas ideas reflejen las lecciones aprendidas a lo largo de la agitación de la tecnología de datos de los últimos veinte años y que nuestro marco mental siga siendo útil durante una década o más en el futuro.
Una cosa a tener en cuenta: adoptamos sin reparos un enfoque de cloud-first. Vemos la nube como un desarrollo fundamentalmente transformador que perdurará durante décadas; la mayoría de los sistemas de datos y cargas de trabajo locales acabarán trasladándose al alojamiento en la nube. Asumimos que la infraestructura y los sistemas son efímeros y escalables, y que los ingenieros de datos se inclinarán por la implementación de servicios gestionados en la nube. Dicho esto, la mayoría de los conceptos de este libro se trasladarán a entornos distintos de la nube.
Quién debería leer este libro
Nuestro público objetivo principal de este libro está formado por profesionales técnicos, ingenieros de software de nivel medio a superior, científicos de datos o analistas interesados en pasarse a la ingeniería de datos; o ingenieros de datos que trabajan en las entrañas de tecnologías específicas, pero que desean desarrollar una perspectiva más completa. Nuestro público objetivo secundario son las partes interesadas en los datos que trabajan junto a los profesionales técnicos, por ejemplo, un jefe de equipo de datos con formación técnica que supervisa a un equipo de ingenieros de datos, o un director de almacenamiento de datos que desea migrar de una tecnología local a una solución basada en la nube.
Lo ideal es que seas curioso y quieras aprender: ¿por qué si no ibas a leer este libro? Te mantienes al día de las tecnologías y tendencias de datos leyendo libros y artículos sobre almacenamiento de datos/lagos de datos, sistemas por lotes y de flujo continuo, orquestación, modelado, gestión, análisis, avances en tecnologías en la nube, etc. Este libro te ayudará a entretejer lo que has leído en una imagen completa de la ingeniería de datos a través de tecnologías y paradigmas.
Requisitos previos
En asumimos que los lectores están familiarizados con los tipos de sistemas de datos que se encuentran en un entorno corporativo. Además, suponemos que los lectores tienen cierta familiaridad con SQL y Python (o algún otro lenguaje de programación), y experiencia con los servicios en la nube.
Hay numerosos recursos disponibles para que los aspirantes a ingenieros de datos practiquen Python y SQL. Abundan los recursos gratuitos en línea (entradas de blog, sitios de tutoriales, vídeos de YouTube), y cada año se publican muchos libros nuevos sobre Python.
La nube ofrece oportunidades sin precedentes para adquirir experiencia práctica con herramientas de datos. Sugerimos a los aspirantes a ingenieros de datos que creen cuentas en servicios en la nube como AWS, Azure, Google Cloud Platform, Snowflake, Databricks, etc. Ten en cuenta que muchas de estas plataformas tienen opciones de niveles gratuitos, pero los lectores deben vigilar de cerca los costes y trabajar con pequeñas cantidades de datos y clústeres de un solo nodo mientras estudian.
Desarrollar la familiaridad con los sistemas de datos corporativos fuera de un entorno empresarial sigue siendo difícil, y esto crea ciertas barreras para los aspirantes a ingenieros de datos que aún no han conseguido su primer empleo en el campo de los datos. Este libro puede ayudar. Sugerimos a los principiantes en datos que lean para obtener ideas de alto nivel y luego consulten los materiales de la sección Recursos adicionales al final de cada capítulo. En una segunda lectura, anota los términos y tecnologías que no te resulten familiares. Puedes utilizar Google, Wikipedia, entradas de blog, vídeos de YouTube y sitios de proveedores para familiarizarte con los nuevos términos y llenar lagunas en tu comprensión.
Qué aprenderás y cómo mejorarán tus habilidades
Este libro de pretende ayudarte a construir una base sólida para resolver problemas de ingeniería de datos del mundo real.
Al final de este libro lo entenderás:
-
Cómo afecta la ingeniería de datos a tu función actual (científico de datos, ingeniero de software o jefe de equipo de datos).
-
Cómo superar el bombo publicitario y elegir las tecnologías, la arquitectura de datos y los procesos adecuados
-
Cómo utilizar el ciclo de vida de la ingeniería de datos para diseñar y construir una arquitectura robusta
-
Buenas prácticas para cada etapa del ciclo de vida de los datos
Y serás capaz de hacerlo:
-
Incorpora principios de ingeniería de datos en tu función actual (científico de datos, analista, ingeniero de software, jefe de equipo de datos, etc.)
-
Une diversas tecnologías en la nube para satisfacer las necesidades de los consumidores de datos en sentido descendente
-
Evaluar los problemas de ingeniería de datos con un marco integral de buenas prácticas
-
Incorporar la gobernanza y la seguridad de los datos en todo el ciclo de vida de la ingeniería de datos
Navegar por este libro
Este libro se compone de cuatro partes:
-
Parte II, "El ciclo de vidade la ingeniería de datos en profundidad"
-
Parte III, "Seguridad, privacidad y futuro de la ingeniería de datos"
-
Apéndices A y B: cubren la serialización y compresión, y las redes en la nube, respectivamente
En la Parte I, empezamos definiendo la ingeniería de datos en el Capítulo 1, y luego trazamos el ciclo de vida de la ingeniería de datos en el Capítulo 2. En el Capítulo 3, hablamos de una buena arquitectura. En el Capítulo 4, presentamos un marco para elegir la tecnología adecuada: aunque a menudo vemos que se confunden tecnología y arquitectura, en realidad son temas muy diferentes.
La Parte II se basa en el Capítulo 2 para abarcar en profundidad el ciclo de vida de la ingeniería de datos; cada etapa del ciclo de vida -generación, almacenamiento, ingestión, transformación y servicio de datos- se trata en su propio capítulo. Podría decirse que la Parte II es el núcleo del libro, y los demás capítulos existen para apoyar las ideas centrales que aquí se tratan.
La Parte III trata temas adicionales. En el Capítulo 10, tratamos la seguridad y la privacidad. Aunque la seguridad siempre ha sido una parte importante de la profesión de ingeniero de datos, se ha vuelto más crítica con el aumento de la piratería informática con ánimo de lucro y los ciberataques patrocinados por el Estado. ¿Y qué podemos decir de la privacidad? La era del nihilismo de la privacidad corporativa ha terminado: ninguna empresa quiere que su nombre aparezca en el titular de un artículo sobre prácticas de privacidad descuidadas. El manejo imprudente de los datos personales también puede tener importantes ramificaciones legales con la llegada del GDPR, la CCPA y otras normativas. En resumen, la seguridad y la privacidad deben ser las máximas prioridades en cualquier trabajo de ingeniería de datos.
Al trabajar en ingeniería de datos, investigar para este libro y entrevistar a numerosos expertos, hemos reflexionado mucho sobre hacia dónde se dirige este campo a corto y largo plazo. El Capítulo 11 esboza nuestras ideas altamente especulativas sobre el futuro de la ingeniería de datos. Por su naturaleza, el futuro es algo resbaladizo. El tiempo dirá si algunas de nuestras ideas son correctas. Nos encantaría que nuestros lectores nos dijeran en qué coinciden o difieren sus visiones del futuro de las nuestras.
En los apéndices, cubrimos un puñado de temas técnicos que son extremadamente relevantes para la práctica diaria de la ingeniería de datos, pero que no cabían en el cuerpo principal del texto. En concreto, los ingenieros necesitan comprender la serialización y la compresión (véase el Apéndice A) tanto para trabajar directamente con archivos de datos como para evaluar las consideraciones de rendimiento en los sistemas de datos, y las redes en la nube (véase el Apéndice B) son un tema fundamental a medida que la ingeniería de datos se traslada a la nube.
Convenciones utilizadas en este libro
En este libro se utilizan las siguientes convenciones tipográficas:
- Cursiva
-
Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo
Constant width
-
Se utiliza para listados de programas, así como dentro de párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave
Consejo
Este elemento significa un consejo o sugerencia.
Nota
Este elemento significa una nota general.
Advertencia
Este elemento indica una advertencia o precaución.
Cómo contactar con nosotros
Dirige tus comentarios y preguntas sobre este libro a la editorial:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Norte
- Sebastopol, CA 95472
- 800-998-9938 (en Estados Unidos o Canadá)
- 707-829-0515 (internacional o local)
- 707-829-0104 (fax)
Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/fundamentals-of-data.
Envía un correo electrónico a bookquestions@oreilly.com para comentar o hacer preguntas técnicas sobre este libro.
Para noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.
Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media
Síguenos en Twitter: https://twitter.com/oreillymedia
Míranos en YouTube: https://www.youtube.com/oreillymedia
Agradecimientos
Cuando empezamos a escribir este libro, muchas personas nos advirtieron de que nos enfrentábamos a una ardua tarea. Un libro como éste tiene muchas partes móviles, y debido a su visión integral del campo de la ingeniería de datos, requirió una tonelada de investigación, entrevistas, discusiones y pensamiento profundo. No pretendemos haber captado todos los matices de la ingeniería de datos, pero esperamos que los resultados resuenen en ti. Numerosas personas contribuyeron a nuestros esfuerzos, y agradecemos el apoyo que recibimos de muchos expertos.
En primer lugar, gracias a nuestro increíble equipo de revisores técnicos. Se han esforzado durante muchas lecturas y han aportado comentarios inestimables (y a menudo despiadadamente contundentes). Este libro sería una fracción de sí mismo sin sus esfuerzos. Sin ningún orden en particular, damos las gracias infinitas a Bill Inmon, Andy Petrella, Matt Sharp, Tod Hansmann, Chris Tabb, Danny Lebzyon, Martin Kleppman, Scott Lorimor, Nick Schrock, Lisa Steckman, Veronika Durgin y Alex Woolford.
En segundo lugar, hemos tenido la oportunidad única de hablar con los principales expertos en el campo de los datos en nuestros programas en directo, podcasts, reuniones e interminables llamadas privadas. Sus ideas ayudaron a dar forma a nuestro libro. Hay demasiadas personas para nombrarlas individualmente, pero nos gustaría dar las gracias a Jordan Tigani, Zhamak Dehghani, Ananth Packkildurai, Shruti Bhat, Eric Tschetter, Benn Stancil, Kevin Hu, Michael Rogove, Ryan Wright, Adi Polak, Shinji Kim, Andreas Kretz, Egor Gryaznov, Chad Sanderson, Julie Price, Matt Turck, Monica Rogati, Mars Lan, Pardhu Gunnam, Brian Suk, Barr Moses, Lior Gavish, Bruno Aziza, Gian Merlino, DeVaris Brown, Todd Beauchene, Tudor Girba, Scott Taylor, Ori Rafael, Lee Edwards, Bryan Offutt, Ollie Hughes, Gilbert Eijkelenboom, Chris Bergh, Fabiana Clemente, Andreas Kretz, Ori Reshef, Nick Singh, Mark Balkenende, Kenten Danas, Brian Olsen, Rhaghu Murthy, Greg Coquillo, David Aponte, Demetrios Brinkmann, Sarah Catanzaro, Michel Tricot, Levi Davis, Ted Walker, Carlos Kemeny, Josh Benamram, Chanin Nantasenamat, George Firican, Jordan Goldmeir, Minhaaj Rehmam, Luigi Patruno, Vin Vashista, Danny Ma, Jesse Anderson, Alessya Visnjic, Vishal Singh, Dave Langer, Roy Hasson, Todd Odess, Che Sharma, Scott Breitenother, Ben Taylor, Thom Ives, John Thompson, Brent Dykes, Josh Tobin, Mark Kosiba, Tyler Pugliese, Douwe Maan, Martin Traverso, Curtis Kowalski, Bob Davis, Koo Ping Shung, Ed Chenard, Matt Sciorma, Tyler Folkman, Jeff Baird, Tejas Manohar, Paul Singman, Kevin Stumpf, Willem Pineaar y Michael Del Balso, de Tecton, Emma Dahl, Harpreet Sahota, Ken Jee, Scott Taylor, Kate Strachnyi, Kristen Kehrer, Taylor Miller, Abe Gong, Ben Castleton, Ben Rogojan, David Mertz, Emmanuel Raj, Andrew Jones, Avery Smith, Brock Cooper, Jeff Larson, Jon King, Holden Ackerman, Miriah Peterson, Felipe Hoffa, David González, Richard Wellman, Susan Walsh, Ravit Jain, Lauren Balik, Mikiko Bazeley, Mark Freeman, Mike Wimmer, Alexey Shchedrin, Mary Clair Thompson, Julie Burroughs, Jason Pedley, Freddy Drennan, Jason Pedley, Kelly y Matt Phillipps, Brian Campbell, Faris Chebib, Dylan Gregerson, Ken Myers, Jake Carter, Seth Paul, Ethan Aaron y muchos otros.
Si no se te menciona específicamente, no te lo tomes como algo personal. Tú sabes quién eres. Háznoslo saber y te incluiremos en la próxima edición.
También queremos dar las gracias al equipo de Datos Ternarios (Colleen McAuley, Maike Wells, Patrick Dahl, Aaron Hunsaker y otros), a nuestros estudiantes y a las innumerables personas de todo el mundo que nos han apoyado. Es un gran recordatorio de que el mundo es un lugar muy pequeño.
¡Trabajar con el equipo de O'Reilly fue increíble! Gracias especialmente a Jess Haberman por confiar en nosotros durante el proceso de propuesta del libro, a nuestras increíbles y extremadamente pacientes editoras de desarrollo Nicole Taché y Michele Cronin por su inestimable trabajo de edición, sus comentarios y su apoyo. Gracias también al magnífico equipo de producción de O'Reilly (Greg y su equipo).
Joe quiere dar las gracias a su familia -Cassie, Milo y Ethan- por dejarle escribir un libro. Tuvieron que aguantar un montón, y Joe promete no volver a escribir un libro. ;)
A Matt le gustaría dar las gracias a sus amigos y familiares por su paciencia y apoyo constantes. Aún tiene esperanzas de que Séneca se digne a dar una crítica de cinco estrellas después de una buena cantidad de trabajo y de tiempo perdido con la familia durante las vacaciones.
Get Fundamentos de la Ingeniería de Datos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.