Capítulo 11. Ampliación del análisis de textos con multiprocesamiento y Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el contexto de los productos de datos con conciencia lingüística, los corpus de texto no son elementos estáticos, sino conjuntos de datos vivos que crecen y cambian constantemente. Tomemos, por ejemplo, un sistema de preguntas y respuestas; en nuestra opinión, no se trata sólo de una aplicación que proporciona respuestas, sino de una que recopila preguntas. Esto significa que incluso un corpus relativamente modesto de preguntas podría convertirse rápidamente en un activo profundo, capaz de entrenar a la aplicación para que aprenda mejores respuestas en el futuro.

Por desgracia, las técnicas de procesamiento de textos son caras, tanto en términos de espacio (memoria y disco) como de tiempo (puntos de referencia computacionales). Por lo tanto, a medida que crecen los corpus, el análisis de textos requiere cada vez más recursos informáticos. Tal vez incluso hayas experimentado cuánto tarda el procesamiento de los corpus con los que estás experimentando mientras lees este libro. La principal solución para hacer frente a los retos que plantean los conjuntos de datos grandes y crecientes es emplear múltiples recursos informáticos (procesadores, discos, memoria) para distribuir la carga de trabajo. Cuando muchos recursos trabajan en diferentes partes del cálculo simultáneamente decimos que ...

Get Análisis de Texto Aplicado con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.