Capítulo 9. Tratar con pocas o ninguna etiqueta

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hay una pregunta tan arraigada en la mente de todos los científicos de datos que suele ser lo primero que preguntan al comienzo de un nuevo proyecto: ¿hay datos etiquetados? La mayoría de las veces, la respuesta es "no" o "un poco", seguida de la expectativa del cliente de que los extravagantes modelos de aprendizaje automático de tu equipo sigan funcionando bien. Dado que entrenar modelos en conjuntos de datos muy pequeños no suele dar buenos resultados, una solución obvia es anotar más datos. Sin embargo, esto lleva tiempo y puede ser muy caro, sobre todo si cada anotación requiere conocimientos especializados paravalidarla.

Afortunadamente, ¡hay varios métodos muy adecuados para tratar con pocas o ninguna etiqueta! Puede que ya conozcas algunos de ellos, como el aprendizaje de cero disparos o de pocos disparos, como atestigua la impresionante capacidad de GPT-3 para realizar una amplia gama de tareas con sólo unas docenas de ejemplos.

En general, el método más eficaz dependerá de la tarea, la cantidad de datos disponibles y qué fracción de esos datos está etiquetada. El árbol de decisión de la Figura 9-1 puede ayudarnos a elegir el método más adecuado.

decision-tree
Figura 9-1. Varias técnicas que pueden utilizarse para mejorar ...

Get Procesamiento del Lenguaje Natural con Transformadores, Edición Revisada now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.