Capítulo 8. Scrapy
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Enel Capítulo 7 se presentaron algunas técnicas y patrones para construir rastreadores web grandes, escalables y (¡lo más importante!) mantenibles. Aunque esto es bastante fácil de hacer a mano, muchas bibliotecas, marcos de trabajo e incluso herramientas basadas en GUI lo harán por ti o, al menos, intentarán hacerte la vida un poco más fácil.
Desde su lanzamiento en 2008, Scrapy ha crecido rápidamente hasta convertirse en el mayor y mejor mantenido framework de raspado web en Python. Actualmente lo mantiene Zyte (antes Scrapinghub).
Uno de los retos de escribir rastreadores web es que a menudo realizas las mismas tareas una y otra vez: encontrar todos los enlaces de una página, evaluar la diferencia entre enlaces internos y externos, e ir a páginas nuevas. Es útil conocer estos patrones básicos y poder escribirlos desde cero, pero la biblioteca Scrapy se encarga de muchos de estos detalles por ti.
Por supuesto, Scrapy no lee la mente. Todavía tienes que definir plantillas de páginas, darle ubicaciones desde las que empezar a raspar y definir patrones de URL para las páginas que buscas. Pero en estos casos, proporciona un marco limpio para mantener tu código organizado.
Instalación de Scrapy
Scrapy ofrece la herramienta para su descarga desde su sitio web, así como instrucciones para instalar Scrapy con gestores de instalación de terceros, como ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access