Parte I. Construcción de rascadores
La primera parte de este libro se centra en la mecánica básica del web scraping: cómo utilizar Python para solicitar información a un servidor web, cómo realizar una manipulación básica de la respuesta del servidor y cómo empezar a interactuar con un sitio web de forma automatizada. Al final, estarás navegando por Internet con facilidad, construyendo raspadores que pueden saltar de un dominio a otro, recopilar información y almacenarla para su uso posterior.
Para ser honesto, el web scraping es un campo fantástico en el que introducirse si quieres obtener grandes beneficios a cambio de una inversión inicial relativamente pequeña. Con toda probabilidad, el 90% de los proyectos de web scraping que te encuentres se basarán en las técnicas utilizadas en los 6 capítulos siguientes. Esta sección trata de lo que el público en general (aunque con conocimientos técnicos) tiende a pensar cuando piensa en "raspadores web":
Recuperar datos HTML de un nombre de dominio
Analizar esos datos para obtener información sobre el objetivo
Almacenar la información del objetivo
Opcionalmente, pasar a otra página para repetir el proceso
Esto te dará una base sólida antes de pasar a proyectos más complejos en la Parte II. No te engañes pensando que esta primera sección no es tan importante como algunos de los proyectos más avanzados de la segunda mitad. ¡Utilizarás casi toda la información de la primera mitad de este libro a diario mientras escribes web scrapers! ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access