Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La mayoría de las empresas, cuando alcanzan un tamaño y una escala suficientes, llegan a un punto en el que empiezan a cuestionarse si sus datos son fiables. Observan cifras en los cuadros de mando que no pueden ser exactas; de repente, los modelos de aprendizaje automático empiezan a funcionar mal en producción. La frase "basura dentro, basura fuera" empieza a circular internamente, refiriéndose al problema de crear productos y funciones utilizando datos que pueden contener corrupciones, segmentos perdidos y otras imprecisiones.

Cuando la confianza en los datos de la empresa empieza a degradarse -o quizás nunca ha existido en primer lugar-, es esencial abordar este problema de frente. La calidad de los datos no es algo que mejore mágicamente a medida que la empresa crece; de hecho, sólo empeorará debido a la mayor complejidad. La calidad de los datos, al igual que la calidad del software, debe ser objeto de un monitoreo continuo para que los problemas se solucionen rápidamente en cuanto surjan.

Muchas organizaciones están de acuerdo con esta idea en teoría, pero tienen dificultades para implementar el monitoreo de la calidad de los datos en la práctica, a escala empresarial. Cuando Jeremy y Elliott fundaron Anomalo en 2018, fue debido a la experiencia de primera mano con estos problemas, lo que les llevó a darse cuenta de que los enfoques existentes para el monitoreo de la calidad de los datos no satisfacían las necesidades de las empresas modernas.

Escribir reglas para comprobar cada pieza de lógica empresarial que debe cumplirse para cada tabla y cada columna podría haber funcionado cuando las empresas mantenían sólo unas pocas tablas pequeñas y bien controladas, pero con los volúmenes de datos actuales, parece como intentar hervir el océano. El seguimiento de los KPI puede darte una señal importante sobre la calidad de los datos, al igual que la observación de metadatos básicos, como si los datos llegan a tiempo, pero aun así, la cobertura es insuficiente, y no tendrás forma de detectar todos los problemas que no se te ocurrió buscar.

Por eso estamos tan entusiasmados con el enfoque que compartiremos en este libro: automatizar el monitoreo de la calidad de los datos con aprendizaje automático. El ML es una herramienta increíblemente poderosa que está dando forma a la innovación en todas partes, y el espacio de la calidad de datos no es diferente. En este libro, compartimos los conocimientos adquiridos en cinco años de construcción de una plataforma de monitoreo de la calidad de los datos impulsada por ML, que utilizan clientes empresariales de una amplia variedad de sectores. Estos capítulos contienen las técnicas más vanguardistas que conocemos, ya se trate de cómo desarrollar un modelo no supervisado para detectar problemas en tus datos, cómo evaluar y ajustar ese modelo, o cómo garantizar que tus notificaciones no tengan demasiado ruido.

Si decides invertir en esta tecnología, lo más probable es que no sea demasiado pronto. Los datos están impulsando la última iteración del cambio tecnológico a través de mejores decisiones, automatización e IA generativa. La calidad de tus datos afecta en última instancia al impacto que tendrán los productos y servicios de tu organización en este nuevo y siempre cambiante panorama. Y cuando las empresas pueden construir una tecnología mejor, todos sentimos los beneficios de la innovación colectiva, ya sea un impacto económico, social o incluso personal.

Así que, si mejoras la calidad de tus datos, ¿podrías salvar el mundo? Quizá sea un poco exagerado. Pero creemos que aprenderás un par de cosas con este libro, y esperamos que te diviertas por el camino.

Concluiremos con esto: la calidad de los datos es un viaje continuo. Ahora mismo se está produciendo una gran innovación en este ámbito, y esperamos que se produzcan más innovaciones. Tal vez, como lector, incluso lleves las técnicas de este libro un paso más allá: esa es nuestra esperanza, y si es así, nos encantaría saber de ti. Puedes ponerte en contacto directamente con los autores en automating.data.quality.monitoring@anomalo.com.

Quién debería utilizar este libro

Hemos escrito este libro pensando en tres públicos principales.

El primero es el director de datos y análisis (CDAO) o vicepresidente de datos. Como responsable de los datos de tu organización al más alto nivel, todo este libro es para ti, pero quizá te interesen más los capítulos 1, 2 y 3, donde explicamos claramente por qué deberías preocuparte por automatizar el monitoreo de la calidad de los datos en tu organización y explicamos cómo evaluar el ROI de una plataforma automatizada de monitoreo de la calidad de los datos. El Capítulo 8 también es especialmente relevante, ya que trata sobre cómo realizar un seguimiento y mejorar la calidad de los datos a lo largo del tiempo.

El segundo público de este libro es el responsable del gobierno de datos. En este puesto o en otros similares, es probable que seas la persona más directamente responsable de la gestión de la calidad de los datos en tu organización. Aunque todo el libro debería serte de gran utilidad, creemos que los capítulos sobre automatización, Capítulos 1, 2 y 3, así como los Capítulos 7 y 8 sobre integraciones y operaciones, te serán especialmente útiles.

Nuestro tercer público es el profesional de los datos. Tanto si eres un científico de datos, un analista o un ingeniero de datos, tu trabajo depende de la calidad de los datos, y las herramientas de monitoreo que utilices tendrán un impacto significativo en tu día a día. Quienes construyan o gestionen una plataforma de monitoreo de la calidad de los datos deben centrarse especialmente en los capítulos 4 a 7, donde cubrimos cómo desarrollar un modelo, diseñar notificaciones e integrar la plataforma con tu ecosistema de datos.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.

Constant width

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Este elemento significa un consejo o sugerencia.

Este elemento significa una nota general.

Este elemento indica una advertencia o precaución.

Aprendizaje en línea O'Reilly

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/automating-data-quality.

Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.

Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media

Síguenos en Twitter: https://twitter.com/oreillymedia

Míranos en YouTube: https://youtube.com/oreillymedia

Agradecimientos

Este libro no habría sido posible sin las aportaciones de un gran número de personas. El director general y cofundador de Anomalo, Elliot Shmukler, compartió la creación y el descubrimiento de muchas de las innovaciones de este libro y ha sido un revisor indispensable. Vicky Andonova, miembro del equipo fundador de Anomalo y nuestra Directora de Aprendizaje Automático Aplicado, también desarrolló y perfeccionó muchas de las ideas de este libro. Otros revisores internos de Anomalo son Anthony Lee, Amy Reams, Erick Peirson, John Joo, Lucy Vallejo-Anderson, Taly Kanfi y Tristen Cross, que compartieron excelentes aportaciones y comentarios. Este libro no habría sido posible sin todos los Anomollamas (muchos no mencionados aquí) que aportan su creatividad y perspicacia para desarrollar nuestra plataforma y ayudar a nuestros clientes cada día. Gracias a todos.

Otros asesores y amigos a los que nos gustaría dar las gracias son: Monica Rogati, una destacada asesora en ciencia de datos; Daniele Perito, cofundadora de Faire, que acuñó el término cicatrices de datos; Prakash Jaganathan, Director Senior de Plataformas de Datos Empresariales de Discover, por proporcionarnos una revisión temprana y permitirnos enlazar a su excelente estudio de caso sobre el retorno de la inversión; el equipo de Chick-fil-A por proporcionarnos una valiosa información sobre su proceso de incorporación a la plataforma; DJ Patil por promocionar nuestro lanzamiento temprano; Josh Wills por su humor y sus ideas; y Josie Stanley por compartir su talento artístico.

Queremos expresar nuestro más sincero agradecimiento al equipo de O'Reilly, incluido nuestro increíble editor Gary O'Brien y nuestro equipo de producción y gestión del libro: Aaron Black, Jonathon Owen, Elizabeth Faerm, Carol Keller, Kristen Brown, Lisa LaRew, Patrick McGrath y Phil Garzoli. También nos gustaría dar las gracias a nuestros revisores técnicos de O'Reilly, Oscar Quintana, Pier Paolo Ippolito, Shubham Piyushbhai Patel y Wayne Yaddow, por aportar su experiencia en el sector y sus perspectivas externas al libro y por compartir importantes comentarios y preguntas que mejoraron el contenido.

Get Automatizar la supervisión de la calidad de los datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.