Capítulo 5. Agrupación de textos y modelización de temas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Aunque las técnicas supervisadas de, como la clasificación, han reinado durante los últimos años en la industria, no se puede subestimar el potencial de las técnicas no supervisadas, como la agrupación de textos.
La agrupación de textos pretende agrupar textos similares basándose en su contenido semántico, significado y relaciones. Como se ilustra en la Figura 5-1, las agrupaciones resultantes de documentos semánticamente similares no sólo facilitan una categorización eficaz de grandes volúmenes de texto no estructurado, sino que también permiten un rápido análisis exploratorio de los datos.
Figura 5-1. Agrupación de datos textuales no estructurados.
La reciente evolución de los modelos lingüísticos, que permiten representaciones contextuales y semánticas del texto, ha mejorado la eficacia de la agrupación de textos. El lenguaje es más que una bolsa de palabras, y los modelos lingüísticos recientes han demostrado ser muy capaces de captar esa noción. La agrupación de textos, al no estar sujeta a supervisión, permite soluciones creativas y diversas aplicaciones, como encontrar valores atípicos, acelerar el etiquetado y encontrar datos etiquetados incorrectamente.
La agrupación de textos también se ha encontrado ...