Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Si has experimentado alguna de las situaciones siguientes, levanta la mano (o simplemente asiente en señal de solidaridad, no hay forma de que sepamos lo contrario):
Cinco mil filas de una tabla crítica (y relativamente previsible) se convierten de repente en quinientas, sin ton ni son.
Un cuadro de mando roto hace que un cuadro de mando ejecutivo escupa valores nulos.
Un cambio de esquema oculto rompe una tubería descendente.
Y la lista continúa.
Este libro es para todos los que han sufrido datos poco fiables, en silencio o con gritos ahogados, y quieren hacer algo al respecto. Esperamos que estas personas procedan de la ingeniería de datos, la analítica de datos o la ciencia de datos, y que participen activamente en la creación, ampliación y gestión de los conductos de datos de su empresa.
A primera vista, puede parecer que Fundamentos de la Calidad de los Datos es un manual sobre cómo limpiar, manejar y, en general, dar sentido a los datos, y lo es. Pero, además, este libro aborda las buenas prácticas, tecnologías y procesos en torno a la creación de sistemas de datos más fiables y, en el proceso, el cultivo de la confianza en los datos con tu equipo y las partes interesadas.
En el Capítulo 1, discutiremos por qué la calidad de los datos merece atención ahora, y cómo las tendencias arquitectónicas y tecnológicas están contribuyendo a una disminución general de la gobernanza y la fiabilidad. Introduciremos el concepto de "tiempo de inactividad de los datos" y explicaremos cómo se remonta a los primeros días de los equipos de ingeniería de fiabilidad de sitios (SRE) y cómo estos mismos principios DevOps pueden aplicarse también a tus flujos de trabajo de ingeniería de datos.
En el Capítulo 2, destacaremos cómo construir sistemas de datos más resistentes, explicando cómo puedes resolver y medir la calidad de los datos en varias tecnologías clave de canalización de datos, incluidos los almacenes de datos, los lagos de datos y los catálogos de datos. Estas tres tecnologías fundamentales almacenan, procesan y rastrean la salud de los datos antes de la producción, lo que naturalmente nos lleva al Capítulo 3, donde veremos cómo recopilar, limpiar, transformar y probar tus datos teniendo en cuenta la calidad y la fiabilidad.
A continuación, el Capítulo 4 recorrerá uno de los aspectos más importantes del flujo de trabajo de la fiabilidad de los datos -la detección y el monitoreo activos de anomalías- compartiendo cómo construir un monitor de calidad de datos utilizando un conjunto de datos sobre exoplanetas disponible públicamente. Este tutorial dará a los lectores la oportunidad de aplicar directamente las lecciones que han aprendido en Fundamentos de la calidad de los datos a su trabajo sobre el terreno, aunque a una escala limitada.
El capítulo 5 proporcionará a los lectores una visión a vista de pájaro de lo que se necesita para reunir estas tecnologías críticas y diseñar sistemas y procesos sólidos que garanticen la medición y el mantenimiento de la calidad de los datos, independientemente del caso de uso. También compartiremos cómo los mejores equipos de datos de Airbnb, Uber, Intuit y otras empresas integran la fiabilidad de los datos en sus flujos de trabajo cotidianos, incluido el establecimiento de SLA, SLI y SLO, y la creación de plataformas de datos que optimizan la calidad de los datos en cinco pilares clave: frescura, volumen, distribución, esquema y linaje.
En el Capítulo 6, nos sumergiremos en los pasos necesarios para reaccionar realmente ante los problemas de calidad de los datos y solucionarlos en entornos de producción, incluida la gestión de incidentes de datos, el análisis de la causa raíz, las autopsias y el establecimiento de buenas prácticas de comunicación de incidentes. A continuación, en el Capítulo 7, los lectores llevarán su comprensión del análisis de la causa raíz un paso más allá, aprendiendo a construir el linaje a nivel de campo utilizando herramientas de código abierto populares y ampliamente adoptadas que deberían estar en el arsenal de todo ingeniero de datos.
En el Capítulo 8, hablaremos de algunas de las barreras culturales y organizativas que deben superar los equipos de datos al evangelizar y democratizar la calidad de los datos a gran escala, incluidos los principios de los mejores, como tratar tus datos como un producto, comprender la matriz RACI de tu empresa para la calidad de los datos y cómo estructurar tu equipo de datos para obtener el máximo impacto empresarial.
En el Capítulo 9, compartiremos varios estudios de casos del mundo real y conversaciones con mentes destacadas en el espacio de la ingeniería de datos, como Zhamak Dehghani, creador de la malla de datos, António Fitas, cuyo equipo comparte valientemente su historia de cómo están migrando hacia una arquitectura de datos descentralizada (¡y de calidad de datos primero!), y Alex Tverdohleb, vicepresidente de Servicios de Datos en Fox y pionero de la técnica de gestión de datos de "libertad controlada". Este mosaico de teoría y ejemplos sobre el terreno te ayudará a visualizar cómo varios de los conceptos de calidad de datos técnicos y basados en procesos que destacamos en los Capítulos 1 a 8 pueden cobrar vida con un colorido asombroso.
Y, por último, en el Capítulo 10, terminamos nuestro libro con un cálculo tangible para medir el impacto financiero de los datos deficientes en tu empresa, en horas-hombre, como forma de ayudar a los lectores (muchos de los cuales se encargan de solucionar el tiempo de inactividad de los datos) a argumentar ante la dirección la necesidad de invertir en más herramientas y procesos para resolver estos problemas. También destacaremos cuatro de nuestras predicciones sobre el futuro de la calidad de los datos en relación con tendencias más amplias del sector, como la gestión de datos distribuidos y el auge de los lagos de datos.
Como mínimo, esperamos que salgas de este libro con algunos trucos en la manga a la hora de argumentar a favor de dar prioridad a la calidad y fiabilidad de los datos en toda tu organización. Como te dirá cualquier líder de datos experimentado, la confianza en los datos no se construye en un día, pero con el enfoque adecuado, se puede avanzar paso a paso.
Convenciones utilizadas en este libro
En este libro se utilizan las siguientes convenciones tipográficas:
- Cursiva
-
Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.
Constant width
-
Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.
Consejo
Este elemento significa un consejo o sugerencia.
Nota
Este elemento significa una nota general.
Utilizar ejemplos de código
El material complementario (ejemplos de código, ejercicios, etc.) se puede descargar en https://oreil.ly/data-quality-fundamentals-code.
Si tienes una pregunta técnica o un problema al utilizar los ejemplos de código, envía un correo electrónico a bookquestions@oreilly.com.
Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.
Agradecemos la atribución, pero en general no la exigimos. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Fundamentos de la calidad de datos, de Barr Moses, Lior Gavish y Molly Vorwerck (O'Reilly). Copyright 2022 Monte Carlo Data, Inc., 978-1-098-11204-2".
Si crees que tu uso de los ejemplos de código queda fuera del uso justo o del permiso aquí descrito, no dudes en ponerte en contacto con nosotros en permissions@oreilly.com.
Aprendizaje en línea O'Reilly
Nota
Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.
Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.
Cómo contactar con nosotros
Dirige tus comentarios y preguntas sobre este libro a la editorial:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Norte
- Sebastopol, CA 95472
- 800-998-9938 (en Estados Unidos o Canadá)
- 707-829-0515 (internacional o local)
- 707-829-0104 (fax)
Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/data-quality-fundamentals.
Envía un correo electrónico a bookquestions@oreilly.com para comentar o hacer preguntas técnicas sobre este libro.
Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.
Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media.
Síguenos en Twitter: https://twitter.com/oreillymedia.
Míranos en YouTube: https://www.youtube.com/oreillymedia.
Agradecimientos
Este libro ha sido un trabajo de amor y, por ello, tenemos que dar las gracias a muchas personas.
En primer lugar, nos gustaría dar las gracias a Jess Haberman, nuestra intrépida editora de adquisiciones, que creyó en nosotros en todo momento. Cuando Jess acudió a nosotros con la idea de un libro sobre la calidad de los datos, nos sorprendió de la mejor manera posible. No teníamos ni idea de que un tema -la fiabilidad de los datos- tan cercano y querido para nosotros encontraría vida fuera de los artículos de nuestro blog personal. Con su dedicación y aliento, pudimos redactar una propuesta que se diferenciara de lo que ya se había publicado en ese ámbito y, en última instancia, escribir un libro que aportara valor a otros profesionales de los datos que luchan contra el tiempo de inactividad de los datos.
También debemos dar las gracias a Jill Leonard, nuestra editora de desarrollo, que ha sido nuestra Yoda durante todo el proceso de escritura. Jill fue la Jedi que nos guió hasta la línea de meta, desde sus inestimables consejos sobre la fluidez y el texto, hasta su disponibilidad para las charlas de ánimo y las sesiones de lluvia de ideas ("¿Debería ir aquí este capítulo? ¿Y allí? ¿Qué es siquiera un prefacio?"). Nuestro amor mutuo por los gatos sólo contribuyó a sellar el vínculo.
Estamos eternamente en deuda con nuestros revisores técnicos, Tristan Baker, Debashis Saha, Wayne Yaddow, Scott Haines, Sam Bail, Joy Payton y Robert Ansel, por sus agudas ediciones y sus valiosos comentarios sobre los múltiples borradores del libro. Su pasión por llevar las buenas prácticas de DevOps y la buena higiene de los datos al campo es una inspiración, y hemos estado muy agradecidos de trabajar con ellos.
Nos gustaría reconocer -y agradecer un millón de veces- a Ryan Kearns, un colaborador de este libro cuyo nombre podría haber figurado en el encabezamiento. Desde la dirección de varios capítulos hasta la aportación de puntos de vista críticos sobre las tecnologías y los procesos tratados, este libro no se habría publicado sin su ayuda. Aprendemos de él cada día y tenemos la gran suerte de llamarle querido colega. En los próximos años, Ryan se convertirá sin duda en una de las voces más importantes de la ingeniería y la ciencia de datos.
Hemos entrevistado a varios expertos y pioneros del sector para este libro y otros proyectos que hemos llevado a cabo durante el año pasado. Sin ningún orden en particular, nos gustaría dar las gracias a Brandon Beidel, Alex Tverdohleb, António Fitas, Gopi Krishnamurthy, Manu Raj, Zhamak Dehghani, Mammad Zadeh, Greg Waldman, Wendy Turner Williams, Zosia Kossowski, Erik Bernhardsson, Jessica Cherny, Josh Wills, Kyle Shannon, Atul Gupte, Chad Sanderson, Patricia Ho, Michael Celentano, Prateek Chawla, Cindi Howson, Debashis Saha, Melody Chien, Ankush Jain, Maxime Beauchemin, DJ Patil, Bob Muglia, Mauricio de Diana, Shane Murray, Francisco Alberini, Mei Tao, Xuanzi Han y Helena Muñoz.
También queremos dar las gracias a Brandon Gubitosa, Sara Gates y Michael Segner por su ayuda con los esbozos y borradores, y por animarnos siempre a "matar a nuestros queridos".
Estamos en deuda con nuestros padres, Elisha y Kadia Moses, Motti y Vira Gavish, y Gregg y Barbara Vorwerck, por animarnos a perseguir nuestras pasiones por la ingeniería de datos y la calidad de datos, desde lanzar una empresa y una categoría dedicadas al concepto, hasta escribir este libro. También nos gustaría dar las gracias a Rae Barr Gavish (RBG) por ser nuestra fan número uno, y a Robert Ansel por ser nuestro SRE residente, consultor de WordPress y gurú de DevOps.
Y estamos siempre en deuda con nuestros clientes, que nos ayudan a ser pioneros en la categoría de observabilidad de datos y, en el proceso, sientan las bases del futuro de los datos fiables a escala.
Get Fundamentos de la calidad de datos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.