Capítulo 6. Agrupación por similitud de textos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

¿Qué harías si te entregaran un montón de papeles -recibos, correos electrónicos, itinerarios de viaje, actas de reuniones- y te pidieran que resumieras su contenido? Una estrategia podría ser leer cada uno de los documentos, subrayando los términos o frases más relevantes de cada uno, y luego ordenarlos en montones. Si una pila empieza a ser demasiado grande, puedes dividirla en dos pilas más pequeñas. Una vez que hayas revisado todos los documentos y los hayas agrupado, podrías examinar cada montón más detenidamente. Tal vez podrías utilizar las frases o palabras principales de cada montón para redactar los resúmenes y dar a cada uno un nombre único: el tema del montón.

De hecho, es una tarea que se practica en muchas disciplinas, desde la medicina al derecho. En esencia, esta tarea de clasificación se basa en nuestra capacidad para comparar dos documentos y determinar su similitud. Los documentos que son similares entre sí se agrupan y los grupos resultantes describen a grandes rasgos los temas, tópicos y patrones generales dentro del corpus. Esos patrones pueden ser discretos (por ejemplo, cuando los grupos no se solapan en absoluto) o difusos (por ejemplo, cuando hay mucha similitud y los documentos son difíciles de distinguir). En cualquier caso, los grupos resultantes representan un modelo del contenido de todos ...

Get Análisis de Texto Aplicado con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.