Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Cualquier tecnología suficientemente avanzada es indistinguible de la magia.
Arthur C. Clarke
Es posible que tu trabajo, tu carrera o tu vida cotidiana ya se vean o estén a punto de verse afectados por la inteligencia artificial (IA). Este libro te ayudará a construir y mejorar tu comprensión de los conceptos y la mecánica que hay detrás de una parte clave de la IA llamada datos de entrenamiento.
¿Realmente se verá afectada tu vida? He aquí una prueba. ¿Te dedicas a la tecnología, trabajas en un producto de software? ¿Tu trabajo, o el producto de tu empresa, tiene algún tipo de tareas repetitivas? ¿Cosas que tú o los usuarios de tu producto hacéis en un ciclo regular? Si has respondido afirmativamente a alguna de estas preguntas, la IA y el aprendizaje automático (ML) tienen el potencial de asumir una mayor parte de la carga de trabajo, permitiéndote a ti o a tus usuarios centraros en tareas de mayor nivel, y por tanto tendrán un impacto sobre ti. Si quieres alinearte mejor con esta nueva ola de IA, este libro te revelará muchas de las tuercas y tornillos que hacen que la IA funcione realmente en la práctica. Te ayudará a acelerar tu éxito en tu trabajo actual y te preparará para nuevas funciones centradas en la IA.
Hablando de trabajo, ¿sabes cómo son los primeros días o semanas en un trabajo nuevo: estresantes, locos, impredecibles? ¿Y luego, de repente, el trabajo, todo lo cotidiano, encaja en su sitio y tiene sentido? Lo que antes era inimaginable se convierte en ordinario porque has aprendido a encajar, a adaptarte. En un periodo de tiempo relativamente corto, pasas de derramar café sobre la camisa del jefe a ser una parte productiva del sistema.
La IA funciona de forma similar. La diferencia es que el jefe de la IA eres tú. Eres responsable de la formación inicial y continua de la IA. Al igual que un nuevo miembro del equipo, cuando la IA se entrena por primera vez, los resultados son impredecibles. Con el tiempo, a medida que la entrenas y supervisas más, mejora. De hecho, ocurre tan rápido, que las suposiciones en torno a lo que es automatizable y lo que no lo es se vuelven del revés. Esta supervisión de alto nivel es necesaria para todos los sistemas de IA, desde los coches autoconducidos hasta la detección de malas hierbas en la agricultura, el diagnóstico médico, la seguridad, la analítica deportiva, etc.
Voy a descorrer el telón de este aspecto fundamental de la IA: la conversión del significado humano en una forma legible para la IA, también conocida como datos de entrenamiento. Esto es importante para todo, desde la IA generativa hasta los sistemas totalmente supervisados. Te ayudaré a comprender las numerosas representaciones y conceptos en torno a los datos de entrenamiento. Veremos cómo funcionan en la práctica, incluidas las operaciones, las herramientas, la automatización y el diseño del sistema. Y lo pondremos todo junto con casos prácticos y consejos.
Tus conocimientos son la magia que hace funcionar la IA. La IA te permite ampliar tu alcance. Hacer un trabajo más creativo. Multiplicar la eficacia de tus conocimientos. Y si puedes aprender a entrenar a la IA, tú serás el beneficiario.
¿Quién debería leer este libro?
Este libro es una visión general básica de los datos de entrenamiento. Es ideal para los que son totalmente nuevos, o acaban de empezar, con los datos de entrenamiento.
Para los profesionales intermedios, los últimos capítulos aportan un valor único y perspectivas que no se pueden encontrar en ningún otro sitio; en pocas palabras, conocimientos internos. Destacaré áreas específicas de interés para expertos en la materia, gestores de flujos de trabajo, directores de datos de formación, ingenieros de datos y científicos de datos.
No es necesario tener conocimientos de informática. Conocer la CS, el aprendizaje automático o la ciencia de los datos hará accesibles más secciones del libro. Me esfuerzo por hacer que este libro sea lo más accesible posible para los anotadores de datos, incluidos los expertos en la materia, porque desempeñan un papel clave en el entrenamiento de los datos, incluida la supervisión del sistema.
Para el profesional técnico y el ingeniero
Puede que hayas estado pensando en enviar o mejorar un sistema, o que hayas visto la demostración de una nueva capacidad de IA y quieras aplicarla a tu dominio. Este libro te guiará a través de estos procesos, además de abordar cuestiones más detalladas, como qué tipos de medios debes utilizar, cómo cablear el sistema y qué automatizaciones son importantes.
Hay muchos enfoques, y este libro pretende proporcionarte una cobertura equilibrada, destacar las ventajas y desventajas, y ser una referencia principal para tus necesidades de datos de entrenamiento. Hay tantos conceptos nuevos que mantenerse informado puede parecer a veces como leer la documentación. Siempre que ha sido posible, he hecho todo lo posible por centrar el estilo del libro en las conversaciones "intermedias", tipo café, que no existen en los documentos públicos.
Si eres un experto, este libro puede servirte de referencia, repaso y forma fácil de transmitir los conceptos básicos a las nuevas personas de tu equipo. ¿Ya tienes algunos conocimientos en este campo y quieres comprobar si están completos? Este libro ampliará tu conjunto de enfoques y te proporcionará nuevas perspectivas sobre ideas comunes. Y si eres completamente nuevo, éste es tu mejor recurso para empezar.
Para el Gerente y el Director
En pocas palabras, este libro tiene un contenido que no puedes conseguir en ningún otro sitio. La singularidad y la densidad del contexto que añade este libro son novedosas y te ayudarán a ti y a tu equipo a desbloquear perspectivas, que potencialmente os llevarán meses o incluso años por delante.
Además, se dedican importantes secciones de este libro a las personas y los procesos. Los datos de entrenamiento presentan conceptos novedosos de interacción persona-ordenador e implican niveles de interacción interdisciplinar que proporcionarán nuevas y valiosas perspectivas, garantizando tu éxito en este apasionante campo de la IA.
Puede que te interesen especialmente el Capítulo 6, "Teorías, conceptos y mantenimiento", el Capítulo 7, "Transformación de la IA y casos de uso", y el Capítulo 9, "Casos prácticos e historias". El resto de los capítulos te ayudarán a sentirte lo suficientemente cómodo con los detalles como para poder reconocer los éxitos y los fracasos; esto te ayudará a corregir el rumbo.
Para el experto en la materia y el especialista en anotación de datos
Los anotadores son una de las funciones más críticas para la producción diaria de datos de formación. El informe del Foro Económico Mundial 2020 afirma que las tres principales funciones laborales que muestran un aumento de la demanda tienen que ver con el análisis de datos y la IA.1 Saber cómo trabajar con datos de entrenamiento es una valiosa habilidad que añadir a las que ya tienes, y también una nueva oportunidad profesional por derecho propio.
Cada vez es más habitual que los empresarios pidan a todos los empleados que comprendan los fundamentos de la IA, y a menudo incluso que entrenen datos. Por ejemplo, un gran empleador del sector del automóvil indica en la descripción de su puesto de anotador de datos que el candidato debe "Saber cómo utilizan las etiquetas nuestros algoritmos de aprendizaje para poder juzgar mejor los casos de perímetro difícil".2 Sea cual sea tu sector o tu formación, tienes una gran oportunidad de ampliar el alcance de tus conocimientos y la productividad de tu empresa basando tus conocimientos y los de tu equipo en datos de entrenamiento.
Aunque cualquiera puede supervisar áreas en las que tenga conocimientos, los expertos en la materia (PYMES), como médicos, abogados e ingenieros, pueden ser especialmente valiosos. Las PYMES pueden tanto supervisar directamente la IA como proporcionar instrucciones detalladas y formación hacia recursos más rentables. Si eres una PYME, es vital que leas este libro, incluso con más detenimiento, para comprender cómo encaja tu trabajo en el panorama de la IA, qué mandos y palancas tienes a tu disposición y cómo establecer procesos para que los sigan otras personas.
Este libro también te ayudará a comprender la mecánica probada, como un concepto llamado esquema, además del material estándar como las instrucciones detalladas. Al leer este libro, obtendrás una comprensión profunda de todo lo que necesitas para crear y mantener sistemas de IA eficaces mediante datos de entrenamiento.
Para el científico de datos
Como científico de datos, tienes un importante papel que desempeñar como asesor de otros: ayudarles a comprender cómo se utilizarán realmente los datos. Incluso los sistemas AutoML más avanzados e integrados suelen necesitar a alguien que interprete y comprenda el significado de sus resultados, y que sea capaz de depurarlos cuando algo va mal. Este libro te ayudará a relacionarte mejor con tus diversos socios técnicos y de anotación.
Cualquier dato puede entrenarse o considerarse dato de entrenamiento. Como muchos términos ("manzana" la fruta frente a "Apple" la empresa), los datos de entrenamiento tienen múltiples significados. Este libro se centra en los datos de entrenamiento supervisados, lo que significa que un humano participa directamente en el enriquecimiento de los datos. Aunque los detalles de la anotación no siempre sean relevantes para tu trabajo diario, una comprensión más amplia puede ayudar a garantizar que el resultado final sea el mejor posible.
Para crear expectativas, este libro se centra en los datos de entrenamiento modernos, y específicamente en los sistemas supervisados en los que un humano desempeña al menos algún papel. Incluso en el contexto de la IA generativa, que a menudo se considera no supervisada, la alineación humana desempeña un papel clave. Aunque los límites o la utilidad de los conceptos de supervisado, autosupervisado, semisupervisado, no supervisado, etc., siguen en constante cambio, parece claro que muchos casos de uso práctico se pueden conseguir con cierto grado de supervisión, y que la supervisión, en alguna de sus formas, estará aquí durante mucho tiempo.
Mientras lees, aquí tienes algunos temas a considerar. ¿Cómo puedes comprometerte más profundamente con tus socios técnicos y de anotación? ¿Cómo puedes participar en los procesos del conjunto de datos, incluida su creación y mantenimiento? ¿Cómo puedes ayudar a alinear tus necesidades de modelado con el esquema y viceversa? ¿Cómo puedes ayudar a garantizar que los datos de entrenamiento sean los mejores posibles para tus modelos? Si hay algo que sacar de este libro, espero que sea que veas la "anotación de datos" bajo una nueva luz, como su propia área tecnológica, llamada datos de entrenamiento.
Por qué escribí este libro
A lo largo de mi viaje con Diffgram, he observado un gran abismo entre los que "lo entendían" y los que no. A menudo, me parecía estar observando a alguien que intentaba aprender a multiplicar antes de saber que existía el sistema numérico. Faltaban los fundamentos básicos de los datos de entrenamiento (y lo que es peor, ¡a menudo no se daban cuenta de que faltaban!).
Al principio, empecé a escribir artículos breves -relativamente breves, la mayoría de pocas páginas, centrados en un tema concreto-. Ayudaban a "detectar" lagunas de conocimiento. Era yo compartiendo cosas de mi pequeño nicho, cosas que casualmente sabía. Pero seguía teniendo la sensación de que faltaban grandes secciones. Necesitaba escribir algo más holístico. Un libro era el siguiente paso lógico. Pero, ¿quién era yo para escribirlo?
Cuando empecé a escribir esto tenía muchas dudas. Llevaba ya unos tres años trabajando en el área, pero seguía teniendo la sensación de que parte del material que pensaba escribir era una meta "aspiracional", no sólo un resumen de lo que ya sabía. Mientras escribo esta sección hoy, reflexionando sobre ahora cinco años, sigo sintiendo que apenas he arañado la superficie de esta área.
Sin embargo, llegados a este punto, tuve que echar la vista atrás y darme cuenta de que había muy pocas personas que yo conociera que hubieran mantenido un nivel comparable de comprensión técnica en profundidad a medida que sus empresas habían ido creciendo. Esto significaba que yo estaba en una corta lista de personas que reúnen un conjunto particular de características: un profundo conocimiento técnico de esta área, conocimiento de la historia de su progreso, la capacidad de explicar estos temas en términos no técnicos y el deseo de dedicar tiempo a registrar y compartir ese conocimiento con los demás.
Realmente creo que los datos de entrenamiento son uno de los cambios conceptuales más importantes en tecnología que han aparecido en mucho tiempo. Los datos de entrenamiento supervisados atraviesan todas las industrias y prácticamente todos los productos. En las próximas décadas, creo que moldearán nuestras vidas de formas que hoy apenas podemos imaginar. Espero que este libro te ayude en tu viaje.
Cómo está organizado este libro
En primer lugar, presento lo que puedes hacer con los datos de entrenamiento, las oportunidades de trabajar con datos de entrenamiento, por qué son importantes los datos de entrenamiento y los datos de entrenamiento en la naturaleza(Capítulo 1, "Introducción a los datos de entrenamiento"). Los proyectos del mundo real requieren herramientas de datos de entrenamiento, y ayuda a asentar los conceptos cuando realmente puedes trabajar con ellos. Para ayudarte a empezar(Capítulo 2, "Ponerse en marcha"), te ofreceremos precisamente eso: un marco para que sigas adelante y te pongas a trabajar.
Una vez que tengas los conceptos de alto nivel y algunas herramientas, será el momento de hablar del esquema: el paradigma para codificar todo tu conocimiento comercial. El esquema es uno de los conceptos más importantes en la formación de datos, por lo que este tratamiento detallado(Capítulo 3, "Esquema") realmente ayudará a construir esa comprensión. A continuación están la ingeniería de datos(Capítulo 4, "Ingeniería de datos") y el flujo de trabajo(Capítulo 5, "Flujo de trabajo"), conceptos clave de ingeniería que te ayudarán a poner tu sistema en marcha y en producción.
A continuación, pasamos a los conceptos y teorías(Capítulo 6, "Teorías, conceptos y mantenimiento"), la transformación de la IA(Capítulo 7, "Transformación de la IA y casos de uso") y la automatización(Capítulo 8, "Automatización"), y concluimos con estudios de casos reales(Capítulo 9, "Estudios de casos e historias").
Temas
Este libro se divide en tres grandes temas, a saber.
Lo básico y cómo empezar
Aprende por qué son importantes los datos de entrenamiento y qué son. Aprende terminologías básicas, conceptos y tipos de representaciones. Enmarco el contexto, empezando por las similitudes y diferencias entre los enfoques supervisados y clásicos del ML. A continuación, desentraño todos los aspectos relacionados con las abstracciones, las personas, el proceso y mucho más. Esta es la base fundamental.
Conceptos y teorías
Aquí nos volvemos más específicos, examinando las operaciones del sistema y de los usuarios y los enfoques de automatización más populares. Aquí nos alejamos ligeramente de lo fundacional y nos expandimos hacia opiniones diversas.
Ponerlo todo junto
Teniendo en cuenta tanto las necesidades fundacionales como las teóricas, exploramos implementaciones concretas. Además, ampliamos las tendencias para abarcar temas y direcciones de investigación de perímetro.
Una pequeña nota sobre los términos: a lo largo de este libro, ocasionalmente verás que los términos datos de entrenamiento y datos de IA se utilizan como sinónimos. Datos de IA es un término amplio que se refiere a cualquier tipo de datos utilizados por la IA. Todos los datos de entrenamiento son también datos de IA.
A menudo utilizo analogías para que el contenido sea más accesible y fácil de recordar. Evitaré a propósito la jerga técnica a menos que su inclusión sea crítica. Si eres un experto, prescinde de todo aquello con lo que ya estés familiarizado; para los no expertos, ten en cuenta que muchos de los detalles técnicos son sólo eso: detalles. Los detalles contribuyen a la comprensión, pero no son necesarios para ella.
Mi objetivo es centrarme en los datos de entrenamiento supervisados en la medida de lo posible. Esto incluye breves incursiones en el aprendizaje profundo y el conocimiento de ML, pero en general, eso está fuera de mi alcance. Los datos de entrenamiento son un concepto de uso general en todos los sectores, que se aplica igualmente bien a muchos. La mayoría de los conceptos presentados se aplican igualmente bien a múltiples dominios.
A pesar de mi experiencia de primera mano con la evolución del ML y la IA, éste no es un libro de historia; sólo cubriré la historia lo suficiente como para fundamentar los temas actuales.
El software creado a partir de datos de entrenamiento introduce una serie de supuestos y limitaciones. Intento desenterrar supuestos ocultos y destacar conceptos comúnmente conocidos en círculos selectos, pero nuevos para la mayoría de los demás.
Convenciones utilizadas en este libro
En este libro se utilizan las siguientes convenciones tipográficas:
- Cursiva
-
Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.
Constant width
-
Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.
Constant width bold
-
Muestra comandos u otros textos que deben ser tecleados literalmente por el usuario.
Constant width italic
-
Muestra el texto que debe sustituirse por valores proporcionados por el usuario o por valores determinados por el contexto.
Este elemento significa una nota general.
Aprendizaje en línea O'Reilly
Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.
Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.
Cómo contactar con nosotros
Dirige tus comentarios y preguntas sobre este libro a la editorial:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Norte
- Sebastopol, CA 95472
- 800-889-8969 (en Estados Unidos o Canadá)
- 707-829-7019 (internacional o local)
- 707-829-0104 (fax)
- support@oreilly.com
- https://www.oreilly.com/about/contact.html
Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/training-data-for-ml.
Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.
Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media.
Síguenos en Twitter: https://twitter.com/oreillymedia.
Míranos en YouTube: https://youtube.com/oreillymedia.
Agradecimientos
Me gustaría dar las gracias a Pablo Estrada, Vitalii Bulyzhyn, Sergey Zakharchenko y Francesco Virga por su trabajo en Diffgram, que me permitió escribir este libro, y por sus comentarios sobre las primeras versiones. Me gustaría dar las gracias a los mentores Vladimir Mandic y Neal Linson por sus ánimos y consejos. También me gustaría dar las gracias a Xue Hai Fang, Luba Kozak, Nathan Muchowski, Shivangini Chaudhary, Tanya Walker y Michael Sarkis por su decidido apoyo.
También quiero dar las gracias a los revisores que me han proporcionado valiosos comentarios, como Igor Susmelj, Tarun Narayanan, Ajay Krishnan, Satyarth Praveen, Prabhav Agrawal, Kunal Khadilkar, Zygmunt Lenyk, Giovanni Alzetta e Ihor Markevych.
Y, por supuesto, el excelente personal de O'Reilly, especialmente Jill Leonard, que estuvo conmigo y con este libro durante todo su desarrollo, y Aaron Black, por su oportuna sabiduría.
1 "Informe sobre el futuro del empleo 2020", Foro Económico Mundial, octubre de 2020 (p. 30, Figura 22).
2 "Especialista en anotación de datos", sitio web de Tesla, consultado el 5 de noviembre de 2020.
Get Datos de entrenamiento para el aprendizaje automático now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.