book

Análisis de Texto Aplicado con Python

Name: Análisis de Texto Aplicado con Python
ISBN: 9798341602144

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

October 2024

Intermediate to advanced

332 pages

10h

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
Retos computacionales del lenguaje naturalDatos lingüísticos: Fichas y PalabrasEntra en el aprendizaje automáticoHerramientas para el análisis de textosQué esperar de este libroA quién va dirigido este libroEjemplos de código y repositorio GitHubConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con nosotrosAgradecimientos
1. Lenguaje y cálculo
El paradigma de la Ciencia de DatosProductos de datos con conocimiento de idiomasLa cadena de productos de datosLa lengua como datoUn modelo computacional del lenguajeCaracterísticas lingüísticasCaracterísticas contextualesCaracterísticas estructuralesConclusión
2. Construir un corpus personalizado
¿Qué es un corpus?Corpora de dominio específicoEl motor de ingestión de las barbasGestión de datos de corpusEstructura del Disco CorpusLectores de corpusAcceso a datos en streaming con NLTKLectura de un corpus HTMLLeer un corpus de una base de datosConclusión
3. Preprocesamiento y depuración del corpus
Desglosar documentosIdentificar y extraer el contenido básicoDeconstruir documentos en párrafosSegmentación: Segmentación de frasesTokenización: Identificación de tokens individualesEtiquetado de parte del discursoAnálisis intermedio de corpusTransformación del corpusPreprocesamiento intermedio y almacenamientoLectura del corpus procesadoConclusión
4. Tuberías de vectorización y transformación de textos
Palabras en el espacioVectores de frecuenciaCodificación en calienteFrecuencia de términos-Frecuencia inversa de documentosRepresentación distribuidaLa API de Scikit-LearnLa interfaz BaseEstimatorAmpliación de TransformerMixinTuberíasConceptos básicos sobre tuberíasBúsqueda en cuadrícula para la optimización de hiperparámetrosEnriquecer la extracción de rasgos con uniones de rasgosConclusión
5. Clasificación para el análisis de textos
Clasificación del textoIdentificar los problemas de clasificaciónModelos clasificadoresConstruir una aplicación de clasificación de textosValidación cruzadaModelo de construcciónEvaluación del modeloOperacionalización del modeloConclusión
6. Agrupación por similitud de textos
Aprendizaje no supervisado sobre textoAgrupación por similitud de documentosMétricas de distanciaAgrupación PartitivaAgrupación jerárquicaTemas del documento de modeladoAsignación latente de DirichletAnálisis Semántico LatenteFactorización de matrices no negativasConclusión
7. Análisis de texto consciente del contexto
Extracción de rasgos basada en la gramáticaGramáticas libres de contextoAnalizadores sintácticosExtraer frases claveExtraer entidadesExtracción de características de n-gramasUn lector de corpus consciente de n-gramasElegir la ventana n-Gram adecuadaColocaciones significativasModelos lingüísticos de n-gramasFrecuencia y frecuencia condicionalEstimación de la máxima verosimilitudPalabras desconocidas: Retroceso y alisadoGeneración de lenguasConclusión
8. Visualización de textos
Visualizar el espacio de característicasAnálisis de rasgos visualesIngeniería de rasgos guiadaDiagnóstico de modelosVisualizar agrupacionesVisualizar las clasesDiagnosticar el error de clasificaciónDirección visualPuntuación de la silueta y curvas del codoConclusión
9. Análisis gráfico del texto
Cálculo y análisis de grafosCrear un Tesauro basado en grafosAnalizar la estructura de los gráficosAnálisis visual de gráficosExtraer gráficos del textoCrear un gráfico socialPerspectivas del Gráfico SocialResolución de entidadesResolución de entidades en un gráficoBloqueo con estructuraBloqueo difusoConclusión

10. Chatbots
Fundamentos de la conversaciónDiálogo: Un breve intercambioMantener una conversaciónReglas para una conversación educadaSaludos y SalutacionesManejar la falta de comunicaciónPreguntas entretenidasAnálisis sintáctico de dependenciasAnálisis sintáctico de circunscripcionesDetección de preguntasDe cucharadas a gramosAprender a ayudarSer VecinoOfrecer recomendacionesConclusión
11. Escalar el análisis de textos con multiprocesamiento y Spark
Multiprocesamiento en PythonEjecutar tareas en paraleloColas y pools de procesosPreprocesamiento paralelo del corpusComputación en clúster con SparkAnatomía de un trabajo SparkDistribuir el CorpusOperaciones RDDPNL con SparkConclusión
12. Aprendizaje profundo y más allá
Redes neuronales aplicadasModelos lingüísticos neuronalesRedes neuronales artificialesArquitecturas de Aprendizaje ProfundoAnálisis de SentimientoAnálisis de la Estructura ProfundaEl futuro (casi) está aquí
Glosario
Índice

Content preview from Análisis de Texto Aplicado con Python

Capítulo 3. Preprocesamiento y depuración del corpus

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el capítulo anterior, aprendimos a construir y estructurar un corpus personalizado y específico del dominio. Por desgracia, cualquier corpus real en su forma bruta es completamente inutilizable para el análisis sin un preprocesamiento y compresión significativos. De hecho, una motivación clave para escribir este libro es el inmenso reto que nosotros mismos hemos encontrado en nuestros esfuerzos por construir y manejar corpus lo suficientemente grandes y ricos como para alimentar productos de datos significativamente alfabetizados. Teniendo en cuenta el tiempo y el esfuerzo que dedicamos al preprocesamiento y la gestión de textos, es sorprendente que existan tan pocos recursos para apoyar (¡o incluso reconocer!) estas fases.

En este capítulo, proponemos un marco de preprocesamiento polivalente que puede utilizarse para transformar sistemáticamente nuestro texto bruto ingerido en una forma que esté lista para el cálculo y el modelado. Nuestro marco incluye las cinco etapas clave que se muestran en la Figura 3-1: extracción de contenido, bloqueo de párrafos, segmentación de frases, tokenización de palabras y etiquetado de partes del discurso. Para cada una de estas etapas, proporcionaremos funciones concebidas como métodos bajo la clase HTMLCorpusReader definida en el capítulo anterior.

Figura 3-1. Desglose ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341602144

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Análisis de Texto Aplicado con Python

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

Capítulo 3. Preprocesamiento y depuración del corpus

Figura 3-1. Desglose ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.