Datos de entrenamiento para el aprendizaje automático

Book description

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Tus datos de entrenamiento tienen tanto que ver con el éxito de tu proyecto de datos como los propios algoritmos, porque la mayoría de los fallos en los sistemas de IA están relacionados con los datos de entrenamiento. Pero aunque los datos de entrenamiento son la base del éxito de la IA y el aprendizaje automático, hay pocos recursos completos que te ayuden a dominar el proceso.

En esta guía práctica, el autor Anthony Sarkis -ingeniero jefe del software de datos de entrenamiento de IA Diffgram- muestra a los profesionales técnicos, directivos y expertos en la materia cómo trabajar con datos de entrenamiento y ampliarlos, al tiempo que ilumina el lado humano de la supervisión de máquinas. Los líderes de ingeniería, los ingenieros de datos y los profesionales de la ciencia de datos adquirirán una sólida comprensión de los conceptos, herramientas y procesos que necesitan para tener éxito con los datos de entrenamiento.

Con este libro, aprenderás a:

  • Trabajar eficazmente con datos de entrenamiento, incluidos esquemas, datos brutos y anotaciones
  • Transformar tu trabajo, equipo u organización para centrarte más en los datos de IA/ML
  • Explicar con claridad los conceptos de los datos de entrenamiento a otros miembros del personal, del equipo y a las partes interesadas
  • Diseñar, desplegar y enviar datos de entrenamiento para aplicaciones de IA de nivel de producción
  • Reconocer y corregir nuevos modos de fallo basados en los datos de entrenamiento, como el sesgo de los datos.
  • Utilizar con confianza la automatización para crear datos de entrenamiento con mayor eficacia
  • Mantener, utilizar y mejorar con éxito los sistemas de registro de datos de formación.

Table of contents

  1. Prefacio
    1. ¿Quién debería leer este libro?
      1. Para el profesional técnico y el ingeniero
      2. Para el Gerente y el Director
      3. Para el experto en la materia y el especialista en anotación de datos
      4. Para el científico de datos
    2. Por qué escribí este libro
    3. Cómo está organizado este libro
    4. Temas
      1. Lo básico y cómo empezar
      2. Conceptos y teorías
      3. Ponerlo todo junto
    5. Convenciones utilizadas en este libro
    6. Aprendizaje en línea O'Reilly
    7. Cómo contactar con nosotros
    8. Agradecimientos
  2. 1. Introducción a los datos de entrenamiento
    1. Datos de entrenamiento Intentos
      1. ¿Qué puedes hacer con los datos de entrenamiento?
      2. ¿Qué es lo que más preocupa a los Datos de Formación?
    2. Oportunidades de datos de formación
      1. Transformación empresarial
      2. Eficacia de los datos de entrenamiento
      3. Competencia en utillaje
      4. Oportunidades de mejora de los procesos
    3. Por qué son importantes los datos de formación
      1. Las aplicaciones ML se están generalizando
      2. La base del éxito de la IA
      3. Los datos de formación están aquí para quedarse
      4. Los datos de entrenamiento controlan el programa de ML
      5. Nuevos tipos de usuarios
    4. Datos de entrenamiento en la naturaleza
      1. ¿Qué dificulta los datos de entrenamiento?
      2. El arte de supervisar máquinas
      3. Algo nuevo para la Ciencia de Datos
      4. Ecosistema del Programa de ML
      5. Aprendizaje automático centrado en datos
      6. Fallas
      7. La historia del desarrollo también afecta a los datos de entrenamiento
      8. Lo que no son los datos de entrenamiento
    5. IA Generativa
      1. La alineación humana es la supervisión humana
    6. Resumen
  3. 2. Ponerse en marcha
    1. Introducción
    2. Ponerse en marcha
      1. Instalación
      2. Configuración de tareas
      3. Configuración del Anotador
      4. Configuración de datos
      5. Configuración del flujo de trabajo
      6. Configuración del Catálogo de Datos
      7. Uso inicial
      8. Optimización
    3. Herramientas
      1. Datos de entrenamiento para el aprendizaje automático
      2. Selección creciente de herramientas
      3. Personas, procesos y datos
      4. Supervisión integrada
      5. Supervisión Humano-Ordenador
      6. Separación de las preocupaciones finales
      7. Normas
      8. Muchas Personas
      9. Un paradigma para ofrecer software de aprendizaje automático
    4. Contrapartidas
      1. Costes
      2. Software instalado frente a software como servicio
      3. Sistema de desarrollo
      4. Escala
      5. Opciones de instalación
      6. Interfaces de anotación
      7. Integración del modelado
      8. Sistemas multiusuario frente a sistemas monousuario
      9. Integraciones
      10. Alcance
      11. Supuestos ocultos
      12. Seguridad
      13. Código abierto y código cerrado
    5. Historia
      1. Normas de código abierto
      2. Darse cuenta de la necesidad de herramientas dedicadas
    6. Resumen
  4. 3. Esquema
    1. Introducción al Esquema
    2. Etiquetas y atributos: ¿qué son?
      1. ¿Qué nos importa?
      2. Introducción a las etiquetas
      3. Atributos Introducción
      4. La complejidad de los atributos supera la complejidad espacial
      5. Resumen técnico
    3. Representación espacial: ¿dónde está?
      1. Utilizar tipos espaciales para evitar el sesgo social
      2. Compromisos con los tipos
      3. Visión por ordenador Ejemplos de tipos espaciales
    4. Relaciones, Secuencias, Series Temporales: ¿Cuándo es?
      1. Secuencias y relaciones
      2. Cuando
    5. Guías e instrucciones
      1. Sentencias
    6. Relación de las tareas de aprendizaje automático con los datos de entrenamiento
      1. Segmentación semántica
      2. Clasificación de imágenes (Etiquetas)
      3. Detección de objetos
      4. Estimación de la pose
      5. Relación de las tareas con los tipos de datos de entrenamiento
    7. Conceptos generales
      1. Repaso del concepto de instancia
      2. Actualización de datos a lo largo del tiempo
      3. La frontera entre la modelización y los datos de entrenamiento
      4. Conceptos de datos brutos
    8. Resumen
  5. 4. Ingeniería de datos
    1. Introducción
      1. ¿Quién quiere los datos?
      2. Un juego de teléfono
      3. Planificar un gran sistema
      4. Enfoques ingenuos y centrados en los datos de entrenamiento
    2. Almacenamiento de datos brutos
      1. Por referencia o por valor
      2. Herramientas de datos de formación dedicadas y listas para usar en tu propio hardware
      3. Almacenamiento de datos: ¿Dónde reposan los datos?
      4. Conexión de referencia externa
      5. Medios sin procesar (BLOB)-Tipo específico
    3. Formateo y mapeo
      1. Tipos definidos por el usuario (archivos compuestos)
      2. Definir mapas de datos
      3. Ingerir magos
      4. Organización de datos y almacenamiento útil
      5. Almacenamiento remoto
      6. Versionado
    4. Acceso a los datos
      1. Desambiguar el almacenamiento, la ingestión, la exportación y el acceso
      2. Exportación basada en archivos
      3. Transmisión de datos
      4. Introducción a las consultas
      5. Integración con el ecosistema
    5. Seguridad
      1. Control de acceso
      2. Identidad y autorización
      3. Ejemplo de configuración de permisos
      4. URL firmadas
      5. Información personal identificable
    6. Etiquetado previo
      1. Actualizar datos
    7. Resumen
  6. 5. Flujo de trabajo
    1. Introducción
    2. Pegamento entre la tecnología y las personas
      1. ¿Por qué son necesarias las tareas humanas?
      2. Asociarse con los no usuarios de software de nuevas formas
    3. Primeros pasos con las Tareas Humanas
      1. Conceptos básicos
      2. El poder de permanencia de los esquemas
      3. Funciones de usuario
      4. Formación
      5. Formación Gold Standard
      6. Conceptos de asignación de tareas
      7. ¿Necesitas personalizar la interfaz?
      8. ¿Cuánto tiempo lo utilizará el anotador medio?
      9. Tareas y estructura del proyecto
    4. Garantía de calidad
      1. Fideicomiso Anotador
      2. Los anotadores son socios
      3. Causas comunes de errores en los datos de entrenamiento
      4. Bucles de revisión de tareas
    5. Analítica
      1. Ejemplos de métricas de anotación
      2. Exploración de datos
    6. Modelos
      1. Utilizar el modelo para depurar a los humanos
      2. Distinciones entre un conjunto de datos, un modelo y una ejecución del modelo
      3. Llevar los datos a los modelos
    7. Flujo de datos
      1. Visión general del streaming
      2. Organización de datos
      3. Tuberías y procesos
    8. Anotación directa
      1. Integración de procesos empresariales
      2. Atributos
      3. Profundidad del etiquetado
      4. Supervisar los datos existentes
      5. Automatizaciones interactivas
      6. Ejemplo: Segmentación semántica Autobordering
      7. Vídeo
    9. Resumen
  7. 6. Teorías, conceptos y mantenimiento
    1. Introducción
    2. Teorías
      1. Un sistema es tan útil como su esquema
      2. Quién supervisa los datos es importante
      3. Los datos elegidos intencionadamente son los mejores
      4. Trabajar con datos históricos
      5. Los datos de entrenamiento son como el código
      6. Suposiciones superficiales sobre el uso de tus datos de entrenamiento
      7. La supervisión humana es diferente de los conjuntos de datos clásicos
    3. Conceptos generales
      1. Relevancia de los datos
      2. Necesidad de evaluaciones cualitativas y cuantitativas
      3. Iteraciones
      4. Priorización: Qué etiquetar
      5. Relación del aprendizaje por transferencia con los conjuntos de datos (ajuste fino)
      6. Juicios por muestra
      7. Consideraciones éticas y de privacidad
      8. Sesgo
      9. Es difícil escapar de los prejuicios
      10. Metadatos
      11. Evitar la pérdida de metadatos
      12. Tren/Val/Prueba es la guinda del pastel
    4. Creación de muestras
      1. Esquema simple para un sistema de recogida de fresas
      2. Representaciones geométricas
      3. Clasificación binaria
      4. Vamos a crear manualmente nuestro primer conjunto
      5. Clasificación mejorada
      6. ¿Dónde está el semáforo?
    5. Mantenimiento
      1. Acciones
      2. Elevación neta
      3. Niveles de madurez del sistema de operaciones de datos de formación
      4. Conjuntos aplicados frente a conjuntos de investigación
    6. Gestión de datos de formación
      1. Calidad
      2. Tareas completadas
      3. Frescura
      4. Mantener los metadatos del conjunto
      5. Gestión de tareas
    7. Resumen
  8. 7. Transformación de la IA y casos de uso
    1. Introducción
    2. Transformación de la IA
      1. Ver tu trabajo diario como una anotación
      2. La revolución creativa de la IA centrada en los datos
      3. Puedes crear nuevos datos
      4. Puedes cambiar los datos que recopilas
      5. Puedes cambiar el significado de los datos
      6. ¡Tú puedes crear!
      7. Mejora de la Función Paso a Paso para Grandes Proyectos
      8. Construye tus datos de IA para asegurar tu presente y tu futuro de IA
    3. Nombrar a un Líder: El Director de Datos de IA
      1. Nuevas expectativas de la gente sobre el futuro de la IA
      2. A veces Propuestas y Correcciones, a veces Sustitución
      3. Productores anteriores y consumidores posteriores
      4. Espectro de datos de formación Compromiso del equipo
      5. Productores dedicados y otros equipos
      6. Organizar a los productores de otros equipos
    4. Descubrimiento de casos de uso
      1. Rúbrica para buenos casos de uso
      2. Evaluar un caso de uso según la rúbrica
      3. Efectos conceptuales de los casos de uso
    5. El nuevo "Crowd Sourcing": Tus propios expertos
      1. Palancas clave de la rentabilidad de los datos de formación
      2. Qué representan los datos anotados
      3. Contrapartidas de controlar tus propios datos de entrenamiento
      4. La necesidad de hardware
      5. Errores comunes en los proyectos
    6. Herramientas modernas de datos de formación
      1. Piensa en la curva de aprendizaje, no en la perfección
      2. Se necesitan nuevos conocimientos y formación
      3. Cómo producen y consumen datos las empresas
      4. Trampa a Evitar: La Optimización Prematura en los Datos de Entrenamiento
      5. No hay balas de plata
      6. Cultura de los datos de formación
      7. Nuevos principios de ingeniería
    7. Resumen
  9. 8. Automatización
    1. Introducción
    2. Cómo empezar
      1. Motivación: ¿Cuándo utilizar estos métodos?
      2. Comprueba en qué parte del esquema está diseñado para trabajar un método
      3. ¿Qué utiliza realmente la gente?
      4. ¿Qué tipo de resultados puedo esperar?
      5. Confusiones comunes
      6. Optimizaciones de la interfaz de usuario
      7. Riesgos
    3. Contrapartidas
      1. Naturaleza de las automatizaciones
      2. Gastos de instalación
      3. Cómo hacer una buena evaluación comparativa
      4. Cómo determinar el alcance de la automatización en relación con el problema
      5. Tiempo de corrección
      6. Expertos en la materia
      7. Considera cómo se apilan las automatizaciones
    4. Etiquetado previo
      1. Preetiquetado estándar
      2. Preetiquetar sólo una parte de los datos
    5. Automatización de la anotación interactiva
      1. Crear el tuyo propio
      2. Notas de configuración técnica
      3. ¿Qué es un Observador? (Patrón Observador)
      4. Cómo utilizar un Observador
      5. Captura interactiva de una región de interés
      6. Caja de dibujo interactiva a polígono utilizando GrabCut
      7. Ejemplo de predicción de modelo de imagen completa
      8. Ejemplo: Detección de personas para distintos atributos
    6. Automatización del control de calidad
      1. Utilizar el modelo para depurar a los humanos
      2. Ejemplo de lista de control automatizada
      3. Comprobaciones de razonabilidad específicas del dominio
    7. Descubrimiento de datos: Qué etiquetar
      1. Exploración humana
      2. Exploración de datos brutos
      3. Exploración de metadatos
      4. Añadir metadatos basados en el preetiquetado
    8. Aumento
      1. Mejores modelos son mejores que mejor aumento
      2. Aumentar o no aumentar
    9. Simulación y datos sintéticos
      1. Las simulaciones siguen necesitando una revisión humana
    10. Medios específicos
      1. ¿Qué métodos funcionan con qué medios?
      2. Consideraciones
      3. Investigación específica de los medios de comunicación
    11. Dominio específico
      1. Etiquetado basado en la geometría
      2. Etiquetado basado en heurística
    12. Resumen
  10. 9. Casos prácticos e historias
    1. Introducción
    2. Industria
      1. Una startup de seguridad adopta herramientas de formación de datos
      2. Garantía de calidad en un proyecto de conducción autónoma a gran escala
      3. Grandes retos tecnológicos
      4. Lecciones sobre startups tecnológicas de seguros
      5. Historias
    3. Un enfoque académico de los datos de formación
      1. Concurso Kaggle TSA
    4. Resumen
  11. Índice
  12. Sobre el autor

Product information

  • Title: Datos de entrenamiento para el aprendizaje automático
  • Author(s): Anthony Sarkis
  • Release date: October 2024
  • Publisher(s): O'Reilly Media, Inc.
  • ISBN: 9798341602441