Capítulo 13. Rastrear formularios e inicios de sesión
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Una de las primeras preguntas que surgen cuando empiezas a ir más allá de los fundamentos del web scraping es: "¿Cómo accedo a la información que hay detrás de una pantalla de inicio de sesión?". La web se mueve cada vez más hacia la interacción, las redes sociales y el contenido generado por el usuario. Los formularios y los inicios de sesión son parte integrante de este tipo de sitios y casi imposibles de evitar. Afortunadamente, también son relativamente fáciles de tratar.
Hasta este punto, la mayoría de nuestras interacciones con servidores web en nuestros ejemplos de scrapers han consistido en utilizar HTTP GET para solicitar información. Este capítulo se centra en el método POST, que envía información a un servidor web para su almacenamiento y análisis.
Los formularios básicamente ofrecen a los usuarios de una forma de enviar una solicitud POST que el servidor web pueda entender y utilizar. Al igual que las etiquetas de enlace de un sitio web ayudan a los usuarios a dar formato a las solicitudes GET, los formularios HTML les ayudan a dar formato a las solicitudes POST. Por supuesto, con un poco de codificación, es posible crear nosotros mismos estas solicitudes y enviarlas con un scraper.
Biblioteca de Peticiones Python
Aunque es posible navegar por los formularios de la web utilizando únicamente las ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access