Capítulo 20. Proxies de raspado web
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Que éste sea el último capítulo del libro es algo apropiado. Hasta ahora has estado ejecutando todas las aplicaciones de Python desde la línea de comandos, dentro de los confines de tu ordenador personal. Como dice el refrán: "Si amas algo, libéralo".
Aunque tengas la tentación de posponer este paso como algo que no necesitas en este momento, puede que te sorprenda lo mucho que te facilita la vida dejar de intentar ejecutar raspadores de Python desde tu portátil.
Es más, desde que se publicó la primera edición de este libro en 2015, ha surgido y florecido toda una industria de empresas proxy de raspado web. Pagar a alguien para que ejecute un raspador web por ti solía ser cuestión de pagar por la instancia del servidor en la nube y ejecutar tu raspador en él como harías con cualquier otro software. Ahora, puedes hacer una solicitud a la API para, básicamente, decir "busca este sitio web", y un programa remoto se encargará de los detalles, gestionará cualquier problema de seguridad y te devolverá los datos (por una tarifa, ¡por supuesto!).
En este capítulo, veremos algunos métodos que te permitirán enrutar tus peticiones a través de direcciones IP remotas, alojar y ejecutar tu software en otro lugar, e incluso descargar por completo el trabajo a un proxy de raspado web.
¿Por qué utilizar servidores remotos?
Aunque utilizar un ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access