Capítulo 6. Scraping pesado con Scrapy
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
A medida que tus objetivos de scraping se hacen más ambiciosos, las soluciones de hacking con Beautiful Soup y peticiones pueden volverse muy complicadas muy rápidamente. Gestionar los datos raspados a medida que las solicitudes engendran más solicitudes se vuelve complicado, y si tus solicitudes se realizan de forma sincrónica, las cosas empiezan a ralentizarse rápidamente. Un montón de problemas que probablemente no habías previsto empiezan a manifestarse. Es en este punto cuando quieres recurrir a una biblioteca potente y robusta que resuelva todos estos problemas y más. Y ahí es donde entra Scrapy.
Mientras que Beautiful Soup es una pequeña navaja muy práctica para el scraping rápido y sucio, Scrapy es una biblioteca de Python que puede hacer scrapes de datos a gran escala con facilidad. Tiene todo lo que cabría esperar, como caché integrada (con tiempos de caducidad), peticiones asíncronas a través del marco web Twisted de Python, aleatorización de agente de usuario y mucho más. El precio de toda esta potencia es una curva de aprendizaje bastante pronunciada, que este capítulo pretende suavizar, utilizando un ejemplo sencillo. Creo que Scrapy es una potente adición a cualquier conjunto de herramientas dataviz y que realmente abre posibilidades para la recopilación de datos web.
En "Raspado de datos", conseguimos raspar ...