Capítulo 12. Análisis y generación de textos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Hasta aquí hemos cubierto las estructuras de datos principales de Python -listas, diccionarios y tuplas- y algunos algoritmos que las utilizan. En este capítulo, las utilizaremos para explorar el análisis de texto y la generación de Markov:
-
El análisis de texto es una forma de describir las relaciones estadísticas entre las palabras de un documento, como la probabilidad de que una palabra vaya seguida de otra.
-
La generación de Markov es una forma de generar un nuevo texto con palabras y frases similares al texto original.
Estos algoritmos son similares a partes de un gran modelo lingüístico (LLM), que es el componente clave de un chatbot.
Empezaremos contando el número de veces que aparece cada palabra en un libro. Luego veremos pares de palabras y haremos una lista de las palabras que pueden seguir a cada palabra. Haremos una versión sencilla de un generador de Markov y, como ejercicio, tendrás la oportunidad de hacer una versión más general.
Palabras únicas
Como primer paso hacia el análisis de textos, leamos en un libro -Elextraño caso del Dr. Jekyll y el Sr. Hyde, de Robert Louis Stevenson- y contemos el número de palabras únicas. Las instrucciones para descargar el libro están en el cuaderno de este capítulo:
filename
=
'dr_jekyll.txt'
Utilizaremos un bucle for
para leer líneas del archivo y split
para dividir ...
Get Piensa en Python, 3ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.