Capítulo 3. Preprocesamiento y depuración del corpus
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, aprendimos a construir y estructurar un corpus personalizado y específico del dominio. Por desgracia, cualquier corpus real en su forma bruta es completamente inutilizable para el análisis sin un preprocesamiento y compresión significativos. De hecho, una motivación clave para escribir este libro es el inmenso reto que nosotros mismos hemos encontrado en nuestros esfuerzos por construir y manejar corpus lo suficientemente grandes y ricos como para alimentar productos de datos significativamente alfabetizados. Teniendo en cuenta el tiempo y el esfuerzo que dedicamos al preprocesamiento y la gestión de textos, es sorprendente que existan tan pocos recursos para apoyar (¡o incluso reconocer!) estas fases.
En este capítulo, proponemos un marco de preprocesamiento polivalente que puede utilizarse para transformar sistemáticamente nuestro texto bruto ingerido en una forma que esté lista para el cálculo y el modelado. Nuestro marco incluye las cinco etapas clave que se muestran en la Figura 3-1: extracción de contenido, bloqueo de párrafos, segmentación de frases, tokenización de palabras y etiquetado de partes del discurso. Para cada una de estas etapas, proporcionaremos funciones concebidas como métodos bajo la clase HTMLCorpusReader
definida en el capítulo anterior.
Get Análisis de Texto Aplicado con Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.