Capítulo 19. Web Scraping en paralelo
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El rastreo web es rápido. Al menos, ¡suele ser mucho más rápido que contratar a una docena de becarios para que copien datos de Internet a mano! Por supuesto, la progresión de la tecnología y la rueda de molino hedónica exigen que en un momento dado ni siquiera esto sea "suficientemente rápido". Ése es el punto en el que la gente suele empezar a mirar hacia la informática distribuida.
A diferencia de la mayoría de los demás campos tecnológicos, el rastreo web a menudo no puede mejorarse simplemente "lanzando más ciclos al problema". Ejecutar un proceso es rápido; ejecutar dos procesos no es necesariamente el doble de rápido. ¡Ejecutar tres procesos puede hacer que te expulsen del servidor remoto al que estás martilleando con todas tus peticiones!
Sin embargo, en algunas situaciones el rastreo web paralelo, o la ejecución de hilos o procesos paralelos, puede seguir siendo beneficioso:
-
Recoger datos de varias fuentes (varios servidores remotos) en lugar de una sola fuente
-
Realizar operaciones largas o complejas en los datos recogidos (como hacer análisis de imágenes u OCR) que podrían hacerse en paralelo a la obtención de los datos.
-
Recopilar datos de un gran servicio web en el que pagas por cada consulta, o en el que la creación de múltiples conexiones al servicio está dentro de los límites de tu acuerdo de uso.
Procesos ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access