Automatizar la supervisión de la calidad de los datos

Book description

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Las empresas del mundo ingieren cada día un total de 2,5 quintillones de bytes de datos. Pero, ¿cuántos de estos datos -utilizados para crear productos, alimentar sistemas de IA e impulsar decisiones empresariales- son de mala calidad o simplemente malos? Este práctico libro te muestra cómo garantizar que los datos en los que confía tu organización sólo contengan registros de alta calidad.

La mayoría de los ingenieros de datos, analistas de datos y científicos de datos se preocupan realmente por la calidad de los datos, pero a menudo no disponen del tiempo, los recursos o los conocimientos necesarios para crear una solución de supervisión de la calidad de los datos que tenga éxito a escala. En este libro, Jeremy Stanley y Paige Schwartz, de Anomalo, explican cómo puedes utilizar la supervisión automatizada de la calidad de los datos para cubrir todas tus tablas de forma eficaz, alertar proactivamente sobre todas las categorías de problemas y resolverlos de inmediato.

Este libro te ayudará:

  • Saber por qué la calidad de los datos es un imperativo empresarial
  • Comprender y evaluar los modelos de aprendizaje no supervisado para detectar problemas en los datos
  • Implementar notificaciones que reduzcan la fatiga de las alertas y te permitan clasificar y resolver los problemas rápidamente
  • Integrar la supervisión automatizada de la calidad de los datos con catálogos de datos, capas de orquestación y sistemas de BI y ML.
  • Comprende los límites de la supervisión automatizada de la calidad de los datos y cómo superarlos
  • Aprende a desplegar y gestionar tu solución de supervisión a escala
  • Mantén la supervisión automatizada de la calidad de los datos a largo plazo

Table of contents

  1. Prólogo
  2. Prefacio
    1. Quién debería utilizar este libro
    2. Convenciones utilizadas en este libro
    3. Aprendizaje en línea O'Reilly
    4. Cómo contactar con nosotros
    5. Agradecimientos
  3. 1. El imperativo de la calidad de los datos
    1. Los datos de alta calidad son el nuevo oro
      1. Las empresas impulsadas por los datos son las disruptoras actuales
      2. El análisis de datos se democratiza
      3. La IA y el aprendizaje automático son diferenciadores
      4. Las empresas están invirtiendo en una pila de datos moderna
    2. Más datos, más problemas
      1. Problemas dentro de la fábrica de datos
      2. Migración de datos
      3. Fuentes de datos de terceros
      4. Crecimiento y cambio de la empresa
      5. Factores exógenos
    3. Por qué necesitamos un monitoreo de la calidad de los datos
      1. Cicatrices de datos
      2. Choques de datos
    4. Automatizar el monitoreo de la calidad de los datos: La nueva frontera
  4. 2. Estrategias de monitoreo de la calidad de los datos y papel de la automatización
    1. Requisitos de monitoreo
    2. Observabilidad de los Datos: Necesaria, pero no suficiente
    3. Enfoques tradicionales de la calidad de los datos
      1. Detección Manual de la Calidad de los Datos
      2. Pruebas basadas en reglas
      3. Monitoreo de métricas
    4. Automatizar el monitoreo de la calidad de los datos con aprendizaje automático no supervisado
      1. ¿Qué es el aprendizaje automático no supervisado?
      2. Una analogía: Avisos de salida de carril
      3. Los límites de la automatización
    5. Un enfoque de cuatro pilares para el monitoreo de la calidad de los datos
  5. 3. Evaluación del impacto empresarial del monitoreo automatizado de la calidad de los datos
    1. Evaluar tus datos
      1. Volumen
      2. Variedad
      3. Velocidad
      4. Veracidad
      5. Casos especiales
    2. Evaluar tu sector
      1. Presión normativa
      2. Riesgos de la IA/ML
      3. Los datos como producto
    3. Evaluar la madurez de tus datos
    4. Evaluar los beneficios para las partes interesadas
      1. Ingenieros
      2. Liderazgo de datos
      3. Científicos
      4. Consumidores
    5. Realizar un análisis del ROI
      1. Medidas cuantitativas
      2. Medidas cualitativas
    6. Conclusión
  6. 4. Automatizar el monitoreo de la calidad de los datos con aprendizaje automático
    1. Requisitos
      1. Sensibilidad
      2. Especificidad
      3. Transparencia
      4. Escalabilidad
      5. Sin requisitos
      6. El monitoreo de la calidad de los datos no es la detección de valores atípicos
    2. Enfoque y algoritmo ML
      1. Muestreo de datos
      2. Codificación de características
      3. Desarrollo de modelos
      4. Explicabilidad del modelo
    3. Armarlo con pseudocódigo
    4. Otras aplicaciones
    5. Conclusión
  7. 5. Construir un modelo que funcione con datos reales
    1. Retos y mitigación de los datos
      1. Estacionalidad
      2. Funciones temporales
      3. Mesas caóticas
      4. Tablas actualizadas in situ
      5. Correlaciones de columna
    2. Prueba de modelos
      1. Inyección de cuestiones sintéticas
      2. Evaluación comparativa
      3. Mejorar el modelo
    3. Conclusión
  8. 6. Implementar las notificaciones evitando la fatiga de las alertas
    1. Cómo facilitan las notificaciones la respuesta a los problemas de datos
      1. Triaje
      2. Enrutamiento
      3. Resolución
      4. Documentación
    2. Actuar sin notificaciones
    3. Anatomía de una notificación
      1. Visualización
      2. Acciones
      3. Descripción del texto
      4. Quién creó/editó por última vez el cheque
    4. Envío de notificaciones
      1. Audiencia de notificación
      2. Canales de notificación
      3. Plazo de notificación
    5. Evitar la fatiga de alerta
      1. Programar los controles en el orden correcto
      2. Agrupación de alertas mediante aprendizaje automático
      3. Suprimir notificaciones
    6. Automatizar el análisis de la causa raíz
    7. Conclusión
  9. 7. Integrar el monitoreo con herramientas y sistemas de datos
    1. Monitoreo de tu pila de datos
    2. Almacenes de datos
      1. Integración con almacenes de datos
      2. Seguridad
      3. Conciliar datos en varios almacenes
    3. Orquestadores de datos
      1. Integración con orquestadores
    4. Catálogos de datos
      1. Integración con catálogos
    5. Consumidores de datos
      1. Herramientas de análisis y BI
      2. MLOps
    6. Conclusión
  10. 8. Poner en marcha tu solución a escala
    1. Construir frente a comprar
      1. Modelos de Implementación de Proveedores
    2. Configuración
      1. Determinar qué tablas son más importantes
      2. Decidir qué datos de una tabla monitorizar
      3. Configuración a escala
    3. Habilitación
      1. Funciones y permisos de los usuarios
      2. Incorporación, formación y apoyo
    4. Mejorar la calidad de los datos a lo largo del tiempo
      1. Iniciativas
      2. Métricas
    5. Del caos a la claridad
  11. Apéndice. Tipos de problemas de calidad de los datos
    1. Temas de la mesa
      1. Llegada tardía
      2. Cambios en el esquema
      3. Cambios imposibles de rastrear
    2. Cuestiones de Fila
      1. Filas incompletas
      2. Filas duplicadas
      3. Incoherencia temporal
    3. Cuestiones de valor
      1. Valores perdidos
      2. Valores incorrectos
      3. Valores no válidos
    4. Cuestiones múltiples
      1. Fallos relacionales
      2. Fuentes incoherentes
  12. Índice
  13. Sobre los autores

Product information

  • Title: Automatizar la supervisión de la calidad de los datos
  • Author(s): Jeremy Stanley, Paige Schwartz
  • Release date: September 2024
  • Publisher(s): O'Reilly Media, Inc.
  • ISBN: 9781098196936