Parte II. Raspado avanzado
Ya has sentado algunas bases para el raspado web; ahora viene la parte divertida. Hasta este punto, tus raspadores web han sido relativamente tontos. Son incapaces de recuperar información a menos que el servidor se la presente inmediatamente en un formato atractivo. Toman toda la información al pie de la letra y la almacenan sin analizarla. Se tropiezan con los formularios, la interacción con el sitio web e incluso con JavaScript. En resumen, no sirven para recuperar información a menos que esa información realmente quiera ser recuperada.
Esta parte del libro te ayudará a analizar los datos en bruto para obtener la historia que hay debajo de los datos: la historia que los sitios web suelen ocultar bajo capas de JavaScript, formularios de inicio de sesión y medidas contra el raspado. Aprenderás a utilizar raspadores web para probar tus sitios, automatizar procesos y acceder a Internet a gran escala. Al final de esta sección, tendrás las herramientas para recopilar y manipular casi cualquier tipo de datos, en cualquier forma, a través de cualquier parte de Internet.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access