Capítulo 5. Análisis avanzado de HTML
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Cuando preguntaron a Miguel Ángel cómo podía esculpir una obra de arte tan magistral como su David, se dice que respondió: "Es fácil. Sólo tienes que arrancar la piedra que no se parece a David".
Aunque el raspado web no es como esculpir mármol en la mayoría de los demás aspectos, debes adoptar una actitud similar cuando se trata de extraer la información que buscas de páginas web complicadas. En este capítulo, exploraremos varias técnicas para desmenuzar cualquier contenido que no se parezca al que quieres, hasta llegar a la información que buscas. Las páginas HTML complicadas pueden parecer intimidantes al principio, ¡pero sigue picando!
Otra ración de BeautifulSoup
En el Capítulo 4, echaste un vistazo rápido a la instalación y ejecución de BeautifulSoup, así como a la selección de objetos de uno en uno. En esta sección, hablaremos de la búsqueda de etiquetas por atributos, del trabajo con listas de etiquetas y de la navegación por árboles de análisis sintáctico.
Casi todos los sitios web que encuentras en contienen hojas de estilo. Las hojas de estilo se crean para que los navegadores web puedan convertir el HTML en diseños coloridos y estéticamente agradables para los humanos. Podrías pensar que esta capa de estilos es, como mínimo, perfectamente ignorable para los raspadores web, ¡pero no tan rápido! El CSS es, de hecho, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access