Planos para el análisis de textos con Python
by Jens Albrecht, Sidharth Ramachandran, Christian Winkler
Capítulo 1. Obtención de las primeras percepciones a partir de datos textuales
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Una de las primeras tareas de todo proyecto de análisis de datos y aprendizaje automático es familiarizarse con los datos. De hecho, siempre es esencial tener un conocimiento básico de los datos para obtener resultados sólidos. Las estadísticas descriptivas proporcionan perspectivas fiables y sólidas y ayudan a evaluar la calidad y la distribución de los datos.
Al considerar los textos, el análisis de frecuencias de palabras y frases es uno de los principales métodos de exploración de datos. Aunque las frecuencias absolutas de las palabras no suelen ser muy interesantes, las frecuencias relativas o ponderadas sí lo son. Al analizar un texto sobre política, por ejemplo, las palabras más frecuentes probablemente contendrán muchos términos obvios y poco sorprendentes, como pueblo, país, gobierno, etc. Pero si comparas las frecuencias relativas de palabras en textos de distintos partidos políticos o incluso de políticos del mismo partido, puedes aprender mucho de las diferencias.
Lo que aprenderás y lo que construiremos
Este capítulo presenta los planos para el análisis estadístico de texto. Te permite empezar rápidamente e introduce conceptos básicos que necesitarás conocer en capítulos posteriores. Empezaremos analizando metadatos categóricos y luego nos centraremos en el análisis y ...