book

Planos para el análisis de textos con Python

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

September 2024

Intermediate to advanced

424 pages

13h 3m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Enfoque del LibroRequisitos previosAlgunas bibliotecas importantes que debes conocerLibros para leerConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
Lo que aprenderás y lo que construiremosAnálisis Exploratorio de DatosPresentación del conjunto de datosPlano: Obtener una visión general de los datos con PandasCálculo de estadísticas de resumen para columnasComprobar si faltan datosTrazar distribuciones de valoresComparar distribuciones de valores entre categoríasVisualizar la evolución en el tiempoPlano: Construir una cadena sencilla de preprocesamiento de textosRealizar la tokenización con expresiones regularesTratamiento de las palabras vacíasProcesar una tubería con una línea de códigoPlanos para el análisis de frecuencia de palabrasPlano: Contar palabras con un contadorPlano: Crear un diagrama de frecuenciasPlano: Crear nubes de palabrasPlano: Clasificación con TF-IDFPlano: Encontrar una palabra clave en contextoPlano: Analizar N-GramasPlano: Comparación de frecuencias entre intervalos de tiempo y categoríasCrear plazos de frecuenciaCrear mapas térmicos de frecuenciaObservaciones finales
Lo que aprenderás y lo que construiremosInterfaces de programación de aplicacionesPlano: Extraer datos de una API utilizando el módulo PeticionesPaginaciónLimitación de velocidadPlano: Extraer datos de Twitter con TweepyObtención de credencialesInstalación y configuración de TweepyExtraer datos de la API de búsquedaExtraer datos de la línea de tiempo de un usuarioExtraer datos de la API de streamingObservaciones finales
Lo que aprenderás y lo que construiremosRaspado y extracción de datosPresentación del Archivo de Noticias ReutersGeneración de URLPlano: Descargar e interpretar robots.txtPlano: Encontrar URLs a partir de sitemap.xmlPlano: Encontrar URLs a partir de RSSDescargar datosPlano: Descargar páginas HTML con PythonPlano: Descargar páginas HTML con wgetExtraer datos semiestructuradosPlano: Extraer datos con expresiones regularesPlano: Utilizar un analizador HTML para la extracciónPlano: ArañandoPresentación del caso prácticoTratamiento de errores y software de calidad de producciónExtracción de texto basada en la densidadExtraer contenido de Reuters con legibilidadResumen Extracción de texto basada en la densidadEnfoque integralPlano: Scraping del Archivo Reuters con ScrapyPosibles problemas con el raspadoObservaciones finales y recomendación
Lo que aprenderás y lo que construiremosUn proceso de preprocesamiento de datosPresentación del conjunto de datos: Autopublicaciones de RedditCargar datos en PandasAnteproyecto: Normalizar los nombres de los atributosGuardar y cargar un marco de datosLimpiar datos de textoPlano: Identificar el ruido con expresiones regularesPlano: Eliminar el ruido con expresiones regularesPlano: Normalización de caracteres con textacyPlano: Enmascaramiento de datos basado en patrones con textacyTokenizaciónPlano: Tokenización con expresiones regularesTokenización con NLTKRecomendaciones para la tokenizaciónProcesamiento lingüístico con spaCyInstanciar una canalizaciónProcesar textoPlano: Personalizar la tokenizaciónPlano: Trabajar con palabras vacíasPlano: Extracción de lemas basados en la parte de la oraciónPlano: Extraer frases sustantivasPlano: Extracción de entidades con nombreExtracción de características en un gran conjunto de datosPlano: Crear una función para conseguirlo todoPlano: Utilizar spaCy en un gran conjunto de datosPersistir en el resultadoNota sobre el tiempo de ejecuciónHay másDetección de idiomasCorrector ortográficoNormalización de tokensObservaciones finales y recomendaciones
Lo que aprenderás y lo que construiremosUn conjunto de datos de juguete para la experimentaciónPlano: Construye tu propio vectorizadorEnumerar el vocabularioVectorizar documentosLa Matriz Documento-TérminoLa matriz de similitudModelos de bolsas de palabrasPlano: Uso del CountVectorizer de scikit-learnPlano: Cálculo de similitudesModelos TF-IDFVectores de documentos optimizados con TfidfTransformerPresentación del conjunto de datos ABCPlano: Reducir las dimensiones de los elementosPlano: Mejorar las funciones haciéndolas más específicasPlano: Utilizar lemas en lugar de palabras para vectorizar documentosPlano: Limitar los tipos de palabrasPlano: Eliminar las palabras más comunesPlano: Añadir contexto mediante N-GramasSimilitud sintáctica en el conjunto de datos ABCPlano: Cómo encontrar los titulares más parecidos a un titular inventadoPlano: Encontrar los dos documentos más parecidos en un corpus grande (mucho más difícil)Plano: Encontrar palabras relacionadasConsejos para programas de larga duración como la similitud sintácticaResumen y Conclusión
Lo que aprenderás y lo que construiremosPresentación del conjunto de datos de errores de las herramientas de desarrollo de JavaPlano: Construir un sistema de clasificación de textosPaso 1: Preparación de los datosPaso 2: Dividir entrenamiento-pruebaPaso 3: Entrenar el modelo de aprendizaje automáticoPaso 4: Evaluación del modeloPlan definitivo para la clasificación de textosPlano: Utilizar la validación cruzada para estimar métricas de precisión realistasPlano: Realizar el ajuste de hiperparámetros con la búsqueda en cuadrículaRecapitulación y conclusión del PlanObservaciones finalesOtras lecturas
Lo que aprenderás y lo que construiremosPlano: Determinar la Confianza de la Clasificación Utilizando la Probabilidad de PredicciónPlano: Medir la importancia de las características de los modelos predictivosPlano: Utilizar LIME para explicar los resultados de la clasificaciónPlano: Utilizar el ELI5 para explicar los resultados de la clasificaciónPlano: Utilizar el anclaje para explicar los resultados de la clasificaciónUtilizar la distribución con palabras enmascaradasTrabajar con palabras realesObservaciones finales
Lo que aprenderás y lo que construiremosNuestro conjunto de datos: Debates Generales de la ONUComprobación de las estadísticas del corpusPreparativosFactorización de matrices no negativas (NMF)Plano: Creación de un modelo temático mediante NMF para documentosPlano: Creación de un modelo de tema para párrafos mediante NMFAnálisis Semántico Latente/IndexaciónPlano: Crear un modelo de tema para párrafos con SVDAsignación latente de DirichletPlano: Creación de un modelo temático para párrafos con LDAPlano: Visualización de los resultados del LDAPlano: Utilizar nubes de palabras para mostrar y comparar modelos temáticosPlano: Cálculo de la Distribución Temática de los Documentos y Evolución TemporalUso de Gensim para el modelado de temasPlano: Preparar los datos para GensimPlano: Factorización de matrices no negativas con GensimPlano: Utilizar LDA con GensimPlan: Cálculo de las puntuaciones de coherenciaPlano: Encontrar el número óptimo de temasPlano: Creación de un Proceso Dirichlet Jerárquico con GensimPlano: Utilizar la Agrupación para Descubrir la Estructura de los Datos TextualesOtras ideasResumen y recomendaciónConclusión
Lo que aprenderás y lo que construiremosResumir textoMétodos extractivosPreprocesamiento de datosPlano: Resumir un texto utilizando la representación de temasIdentificar palabras importantes con valores TF-IDFAlgoritmo LSAPlano: Resumir un texto utilizando una representación indicadoraMedir el rendimiento de los métodos de resumen de textosPlano: Resumir texto utilizando el aprendizaje automáticoPaso 1: Crear etiquetas de destinoPaso 2: Añadir características para ayudar a la predicción del modeloPaso 3: Construir un modelo de aprendizaje automáticoObservaciones finalesOtras lecturas

Lo que aprenderás y lo que construiremosEl caso de las incrustaciones semánticasIncrustación de palabrasRazonamiento por analogía con incrustación de palabrasTipos de incrustacionesPlano: Uso de consultas de similitud en modelos preentrenadosCargar un modelo preentrenadoConsultas de similitudPlanos para entrenar y evaluar tus propias incrustacionesPreparación de datosPlano: Entrenamiento de modelos con GensimAnteproyecto: Evaluación de diferentes modelosPlanos para visualizar incrustacionesPlano: Aplicación de la reducción de la dimensionalidadPlano: Uso del proyector de incrustación TensorFlowPlano: Construir un árbol de similitudObservaciones finalesOtras lecturas
Lo que aprenderás y lo que construiremosAnálisis de SentimientoPresentación del conjunto de datos de opiniones de clientes de AmazonPlano: Análisis de Sentimientos con Enfoques Basados en LéxicosLéxico Bing LiuDesventajas de un enfoque basado en el léxicoEnfoques de aprendizaje supervisadoPreparar los datos para un enfoque de aprendizaje supervisadoPlano: Vectorizar datos de texto y aplicar un algoritmo de aprendizaje automático supervisadoPaso 1: Preparación de los datosPaso 2: Dividir entrenamiento-pruebaPaso 3: Vectorización del textoPaso 4: Entrenar el modelo de aprendizaje automáticoModelos lingüísticos preentrenados mediante aprendizaje profundoAprendizaje profundo y aprendizaje por transferenciaPlano: Utilizando la Técnica del Aprendizaje por Transferencia y un Modelo Lingüístico PreentrenadoPaso 1: Carga de modelos y tokenizaciónPaso 2: Entrenamiento del modeloPaso 3: Evaluación del modeloObservaciones finalesOtras lecturas
Lo que aprenderás y lo que construiremosGráficos de conocimientoExtracción de informaciónPresentación del conjunto de datosReconocimiento de Entidades NombradasProyecto: Uso del reconocimiento de entidades con nombre basado en reglasPlano: Normalización de entidades con nombreFusión de tokens de entidadResolución de CoreferenciasPlano: Uso de las extensiones de token de spaCyPlano: Resolución de aliasPlano: Resolver variaciones de nombrePlano: Resolución de anáforas con NeuralCorefNormalización de nombresVinculación de entidadesPlano: Crear un gráfico de co-ocurrenciasExtraer co-ocurrencias de un documentoVisualizar el gráfico con GephiExtracción de relacionesPlano: Extraer relaciones mediante la concordancia de frasesPlano: Extracción de relaciones mediante árboles de dependenciaCrear el Gráfico de ConocimientosNo confíes ciegamente en los resultadosObservaciones finalesOtras lecturas
Lo que aprenderás y lo que construiremosPlano: Utilizar Conda para crear entornos Python reproduciblesPlano: Utilizar contenedores para crear entornos reproduciblesPlano: Creación de una API REST para tu modelo de análisis de textoPlan: Implementación y ampliación de tu API con un proveedor en la nubePlano: Versionado e Implementación automática de compilacionesObservaciones finalesOtras lecturas

Content preview from Planos para el análisis de textos con Python

Capítulo 1. Obtención de las primeras percepciones a partir de datos textuales

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Una de las primeras tareas de todo proyecto de análisis de datos y aprendizaje automático es familiarizarse con los datos. De hecho, siempre es esencial tener un conocimiento básico de los datos para obtener resultados sólidos. Las estadísticas descriptivas proporcionan perspectivas fiables y sólidas y ayudan a evaluar la calidad y la distribución de los datos.

Al considerar los textos, el análisis de frecuencias de palabras y frases es uno de los principales métodos de exploración de datos. Aunque las frecuencias absolutas de las palabras no suelen ser muy interesantes, las frecuencias relativas o ponderadas sí lo son. Al analizar un texto sobre política, por ejemplo, las palabras más frecuentes probablemente contendrán muchos términos obvios y poco sorprendentes, como pueblo, país, gobierno, etc. Pero si comparas las frecuencias relativas de palabras en textos de distintos partidos políticos o incluso de políticos del mismo partido, puedes aprender mucho de las diferencias.

Lo que aprenderás y lo que construiremos

Este capítulo presenta los planos para el análisis estadístico de texto. Te permite empezar rápidamente e introduce conceptos básicos que necesitarás conocer en capítulos posteriores. Empezaremos analizando metadatos categóricos y luego nos centraremos en el análisis y ...