Capítulo 6. Comprender Wikipediacon LDA y Spark NLP

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Con la creciente cantidad de datos de texto no estructurados de los últimos años, se ha vuelto difícil obtener la información relevante y deseada. La tecnología lingüística proporciona potentes métodos que pueden utilizarse para minar a través de los datos de texto y obtener la información que buscamos. En este capítulo, utilizaremos PySpark y la biblioteca Spark NLP (procesamiento del lenguaje natural) para emplear una de estas técnicas: el modelado temático. En concreto, utilizaremos el algoritmo de Dirichlet latente (LDA) para comprender un conjunto de datos de documentos de Wikipedia.

El modelado de temas, una de las tareas más comunes en el procesamiento del lenguaje natural, es un enfoque estadístico para el modelado de datos que ayuda a descubrir los temas subyacentes que están presentes en una colección de documentos. Extraer la distribución de temas de millones de documentos puede ser útil de muchas maneras: por ejemplo, para identificar los motivos de las quejas sobre un producto concreto o sobre todos los productos, o para identificar temas en artículos de noticias. El algoritmo más popular para el modelado de temas es el LDA. Es un modelo generativo que supone que los documentos están representados por una distribución de temas. Los temas, a su vez, están representados por una distribución de palabras. ...

Get Analítica avanzada con PySpark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.