Traitement du langage naturel avec les transformateurs, édition révisée
by Lewis Tunstall, Leandro von Werra, Thomas Wolf
Chapitre 9. Faire face à peu ou pas d'étiquettes
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Il y a une question si profondément ancrée dans l'esprit de tous les scientifiques des données que c'est généralement la première chose qu'ils demandent au début d'un nouveau projet : y a-t-il des données annotées ? Le plus souvent, la réponse est " non " ou " un peu ", suivie d'une attente du client selon laquelle les modèles d'apprentissage automatique fantaisistes de ton équipe devraient tout de même donner de bons résultats. Étant donné que l'entraînement de modèles sur de très petits ensembles de données ne donne généralement pas de bons résultats, une solution évidente consiste à annoter davantage de données. Cependant, cela prend du temps et peut être très coûteux, surtout si chaque annotation nécessite une expertise du domaine pour êtrevalidée.
Heureusement, il existe plusieurs méthodes qui conviennent parfaitement pour traiter avec peu ou pas d'étiquettes ! Tu connais peut-être déjà certaines d'entre elles, comme l'apprentissage à partir de zéro ou de peu d'échantillons, comme en témoigne la capacité impressionnante de GPT-3 à effectuer une gamme variée de tâches avec seulement quelques douzaines d'exemples.
En général, la méthode la plus performante dépend de la tâche, de la quantité de données disponibles et de la fraction de ces données qui est étiquetée. L'arbre de décision présenté à la ...