Chapitre 5. Regroupement de textes et modélisation thématique
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Bien que les techniques supervisées, telles que la classification, aient régné en maître ces dernières années dans l'industrie, le potentiel des techniques non supervisées, telles que le regroupement de textes, ne peut pas être sous-estimé.
Le regroupement de textes vise à regrouper des textes similaires en fonction de leur contenu sémantique, de leur signification et de leurs relations. Comme l'illustre la figure 5-1, les grappes de documents sémantiquement similaires qui en résultent facilitent non seulement la catégorisation efficace de grands volumes de textes non structurés, mais permettent également une analyse exploratoire rapide des données.
Figure 5-1. Regroupement de données textuelles non structurées.
L'évolution récente des modèles de langage, qui permettent des représentations contextuelles et sémantiques du texte, a amélioré l'efficacité du regroupement de textes. Le langage est plus qu'un sac de mots, et les modèles de langage récents se sont avérés tout à fait capables de capturer cette notion. Le regroupement de textes, non lié à la supervision, permet des solutions créatives et des applications diverses, telles que la recherche de valeurs aberrantes, l'accélération de l'étiquetage ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access