Capítulo 2. Construir un corpus personalizado
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Como en cualquier aplicación de aprendizaje automático, el reto principal es determinar si la señal se oculta en el ruido y dónde. Esto se hace mediante el proceso deanálisis de rasgos : determinarqué rasgos, propiedades o dimensiones de nuestro texto codifican mejor su significado y su estructura subyacente. En el capítulo anterior, empezamos a ver que, a pesar de la complejidad y flexibilidad del lenguaje natural, es posible modelizarlo si podemos extraer sus rasgos estructurales y contextuales.
La mayor parte de nuestro trabajo en los capítulos siguientes se centrará en la "extracción de rasgos" y la "ingeniería del conocimiento", donde nos ocuparemos de la identificación de palabras únicas del vocabulario, conjuntos de sinónimos, interrelaciones entre entidades y contextos semánticos. Como veremos a lo largo del libro, la representación de la estructura lingüística subyacente que utilicemos determina en gran medida nuestro éxito. Determinar una representación requiere que definamos las unidades del lenguaje: las cosas que contamos, medimos, analizamos o de las que aprendemos.
A cierto nivel, el análisis de textos es el acto de descomponer grandes corpus de trabajo en sus componentes constituyentes -palabras de vocabulario único, frases comunes, patrones sintácticos- y aplicarles luego mecanismos estadísticos. Aprendiendo ...
Get Análisis de Texto Aplicado con Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.