book

Análisis de Texto Aplicado con Python

Name: Análisis de Texto Aplicado con Python
ISBN: 9798341602144

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

October 2024

Intermediate to advanced

332 pages

10h

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
Retos computacionales del lenguaje naturalDatos lingüísticos: Fichas y PalabrasEntra en el aprendizaje automáticoHerramientas para el análisis de textosQué esperar de este libroA quién va dirigido este libroEjemplos de código y repositorio GitHubConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con nosotrosAgradecimientos
1. Lenguaje y cálculo
El paradigma de la Ciencia de DatosProductos de datos con conocimiento de idiomasLa cadena de productos de datosLa lengua como datoUn modelo computacional del lenguajeCaracterísticas lingüísticasCaracterísticas contextualesCaracterísticas estructuralesConclusión
2. Construir un corpus personalizado
¿Qué es un corpus?Corpora de dominio específicoEl motor de ingestión de las barbasGestión de datos de corpusEstructura del Disco CorpusLectores de corpusAcceso a datos en streaming con NLTKLectura de un corpus HTMLLeer un corpus de una base de datosConclusión
3. Preprocesamiento y depuración del corpus
Desglosar documentosIdentificar y extraer el contenido básicoDeconstruir documentos en párrafosSegmentación: Segmentación de frasesTokenización: Identificación de tokens individualesEtiquetado de parte del discursoAnálisis intermedio de corpusTransformación del corpusPreprocesamiento intermedio y almacenamientoLectura del corpus procesadoConclusión
4. Tuberías de vectorización y transformación de textos
Palabras en el espacioVectores de frecuenciaCodificación en calienteFrecuencia de términos-Frecuencia inversa de documentosRepresentación distribuidaLa API de Scikit-LearnLa interfaz BaseEstimatorAmpliación de TransformerMixinTuberíasConceptos básicos sobre tuberíasBúsqueda en cuadrícula para la optimización de hiperparámetrosEnriquecer la extracción de rasgos con uniones de rasgosConclusión
5. Clasificación para el análisis de textos
Clasificación del textoIdentificar los problemas de clasificaciónModelos clasificadoresConstruir una aplicación de clasificación de textosValidación cruzadaModelo de construcciónEvaluación del modeloOperacionalización del modeloConclusión
6. Agrupación por similitud de textos
Aprendizaje no supervisado sobre textoAgrupación por similitud de documentosMétricas de distanciaAgrupación PartitivaAgrupación jerárquicaTemas del documento de modeladoAsignación latente de DirichletAnálisis Semántico LatenteFactorización de matrices no negativasConclusión
7. Análisis de texto consciente del contexto
Extracción de rasgos basada en la gramáticaGramáticas libres de contextoAnalizadores sintácticosExtraer frases claveExtraer entidadesExtracción de características de n-gramasUn lector de corpus consciente de n-gramasElegir la ventana n-Gram adecuadaColocaciones significativasModelos lingüísticos de n-gramasFrecuencia y frecuencia condicionalEstimación de la máxima verosimilitudPalabras desconocidas: Retroceso y alisadoGeneración de lenguasConclusión
8. Visualización de textos
Visualizar el espacio de característicasAnálisis de rasgos visualesIngeniería de rasgos guiadaDiagnóstico de modelosVisualizar agrupacionesVisualizar las clasesDiagnosticar el error de clasificaciónDirección visualPuntuación de la silueta y curvas del codoConclusión
9. Análisis gráfico del texto
Cálculo y análisis de grafosCrear un Tesauro basado en grafosAnalizar la estructura de los gráficosAnálisis visual de gráficosExtraer gráficos del textoCrear un gráfico socialPerspectivas del Gráfico SocialResolución de entidadesResolución de entidades en un gráficoBloqueo con estructuraBloqueo difusoConclusión

10. Chatbots
Fundamentos de la conversaciónDiálogo: Un breve intercambioMantener una conversaciónReglas para una conversación educadaSaludos y SalutacionesManejar la falta de comunicaciónPreguntas entretenidasAnálisis sintáctico de dependenciasAnálisis sintáctico de circunscripcionesDetección de preguntasDe cucharadas a gramosAprender a ayudarSer VecinoOfrecer recomendacionesConclusión
11. Escalar el análisis de textos con multiprocesamiento y Spark
Multiprocesamiento en PythonEjecutar tareas en paraleloColas y pools de procesosPreprocesamiento paralelo del corpusComputación en clúster con SparkAnatomía de un trabajo SparkDistribuir el CorpusOperaciones RDDPNL con SparkConclusión
12. Aprendizaje profundo y más allá
Redes neuronales aplicadasModelos lingüísticos neuronalesRedes neuronales artificialesArquitecturas de Aprendizaje ProfundoAnálisis de SentimientoAnálisis de la Estructura ProfundaEl futuro (casi) está aquí
Glosario
Índice

Content preview from Análisis de Texto Aplicado con Python

Capítulo 6. Agrupación por similitud de textos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

¿Qué harías si te entregaran un montón de papeles -recibos, correos electrónicos, itinerarios de viaje, actas de reuniones- y te pidieran que resumieras su contenido? Una estrategia podría ser leer cada uno de los documentos, subrayando los términos o frases más relevantes de cada uno, y luego ordenarlos en montones. Si una pila empieza a ser demasiado grande, puedes dividirla en dos pilas más pequeñas. Una vez que hayas revisado todos los documentos y los hayas agrupado, podrías examinar cada montón más detenidamente. Tal vez podrías utilizar las frases o palabras principales de cada montón para redactar los resúmenes y dar a cada uno un nombre único: el tema del montón.

De hecho, es una tarea que se practica en muchas disciplinas, desde la medicina al derecho. En esencia, esta tarea de clasificación se basa en nuestra capacidad para comparar dos documentos y determinar su similitud. Los documentos que son similares entre sí se agrupan y los grupos resultantes describen a grandes rasgos los temas, tópicos y patrones generales dentro del corpus. Esos patrones pueden ser discretos (por ejemplo, cuando los grupos no se solapan en absoluto) o difusos (por ejemplo, cuando hay mucha similitud y los documentos son difíciles de distinguir). En cualquier caso, los grupos resultantes representan un modelo del contenido de todos ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341602144

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Análisis de Texto Aplicado con Python

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

Capítulo 6. Agrupación por similitud de textos

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.