book

Web Scraping con Python, 3.ª edición

Name: Web Scraping con Python, 3.ª edición
Author: Ryan Mitchell
ISBN: 9798341630475

by Ryan Mitchell

March 2025

Intermediate to advanced

352 pages

9h 37m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Qué es el Web Scraping?¿Por qué Web Scraping?Acerca de este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
I. Rascadores de edificios
1. Cómo funciona Internet
RedesCapa físicaCapa de enlace de datosCapa de redCapa de transporteCapa de sesiónCapa de presentaciónCapa de aplicaciónHTMLCSSJavaScriptVer sitios web con herramientas para desarrolladores
2. Legalidad y ética del Web Scraping
Marcas registradas, derechos de autor, patentes, ¡vaya por Dios!Ley de Propiedad IntelectualAllanamiento de moradaLa Ley contra el Fraude y el Abuso Informáticosrobots.txt y Condiciones del servicioTres raspadores webeBay contra el perímetro del postor y la usurpación de bienes mueblesEstados Unidos contra Auernheimer y la Ley contra el Fraude y el Abuso InformáticosField contra Google: Derechos de autor y robots.txt
3. Aplicaciones del Web Scraping
Clasificación de proyectosComercio electrónicoMarketingInvestigación académicaConstrucción de productosViaja aVentasRaspado SERP
4. Cómo escribir tu primer raspador web
Instalación y uso de JupyterConectandoIntroducción a BeautifulSoupInstalación de BeautifulSoupEjecutar BeautifulSoupConexión fiable y gestión de excepciones
5. Análisis avanzado de HTML
Otra ración de BeautifulSoupfind() y find_all() con BeautifulSoupOtros objetos de BeautifulSoupNavegar por los árbolesExpresiones regularesExpresiones regulares y BeautifulSoupAcceder a los atributosExpresiones LambdaNo siempre se necesita un martillo
6. Escribir rastreadores web
Atravesar un único dominioRastrear todo un sitio webRecopilación de datos de todo un centroRastreando Internet
7. Modelos de rastreo web
Planificación y definición de objetosDiferentes diseños de páginas webEstructuración de las orugasRastrear sitios a través de la búsquedaRastrear sitios a través de enlacesRastreo de varios tipos de páginasReflexiones sobre los modelos de rastreadores web
8. Scrapy
Instalación de ScrapyInicializar una nueva arañaEscribir un rascador sencilloAraña con reglasCrear elementosSalida de elementosLa tubería de artículosRegistro con ScrapyMás recursos

9. Almacenar datos
Archivos multimediaAlmacenar datos en CSVMySQLInstalar MySQLAlgunos comandos básicosIntegración con PythonTécnicas de bases de datos y buenas prácticas"Seis Grados" en MySQLEnvía un correo electrónico a
II. Raspado avanzado
10. Lectura de documentos
Codificación de documentosTextoCodificación de textos e Internet globalCSVLectura de archivos CSVPDFMicrosoft Word y .docx
11. Trabajar con datos sucios
Texto de limpiezaTrabajar con texto normalizadoLimpiar datos con PandasLimpiezaIndexar, ordenar y filtrarMás sobre los pandas
12. Lectura y escritura de lenguas naturales
Resumir datosModelos de MarkovSeis Grados de Wikipedia: ConclusiónConjunto de herramientas de lenguaje naturalInstalación y configuraciónAnálisis estadístico con NLTKAnálisis lexicográfico con NLTKRecursos adicionales
13. Rastrear formularios e inicios de sesión
Biblioteca de Peticiones PythonEnviar un formulario básicoBotones de radio, casillas de verificación y otras entradasEnvío de archivos e imágenesGestión de inicios de sesión y cookiesAutenticación básica de acceso HTTPOtros problemas de forma
14. Raspado de JavaScript
Breve introducción a JavaScriptBibliotecas comunes de JavaScriptAjax y HTML dinámicoEjecutar JavaScript en Python con SeleniumInstalar y ejecutar SeleniumSelectores de selenioEsperando para cargarXPathControladores Web de Selenio adicionalesGestión de redireccionamientosNota final sobre JavaScript
15. Rastreo a través de API
Breve introducción a las APIMétodos HTTP y APIMás sobre las respuestas de la APIAnálisis JSONAPIs no documentadasEncontrar APIs no documentadasDocumentar APIs no documentadasCombinar API con otras fuentes de datosMás sobre las API
16. Tratamiento de imágenes y reconocimiento de textos
Visión general de las bibliotecasAlmohadaTeseractoNumPyProcesar texto bien formateadoAjustar imágenes automáticamenteExtraer texto de imágenes de sitios webLectura de CAPTCHAs y entrenamiento de TesseractEntrenamiento TeseractoRecuperar CAPTCHAs y enviar soluciones
17. Evitar trampas de raspado
Una nota sobre éticaParecer humanoAjusta tus cabecerasManejar cookies con JavaScriptHuella digital TLSEl momento oportuno lo es todoElementos comunes de seguridad de los formulariosValores ocultos del campo de entradaEvitar los HoneypotsLa lista de control humana
18. Probar tu sitio web con scrapers
Introducción a las pruebas¿Qué son las pruebas unitarias?Python unittestPruebas WikipediaPruebas con SeleniumInteractuar con el Sitio
19. Raspado web en paralelo
Procesos frente a hilosRastreo multihiloCondiciones de carrera y colasMás funciones del módulo de roscadoProcesos múltiplesRastreo multiprocesoComunicación entre procesosRastreo multiproceso: otro enfoque
20. Proxies de raspado web
¿Por qué utilizar servidores remotos?Evitar el bloqueo de direcciones IPPortabilidad y extensibilidadTorPySocksAlojamiento remotoEjecutar desde una cuenta de alojamiento webEjecutar desde la nubeAvanzarProxies de raspado webScrapingBeeRascadorAPIOxylabsZyteRecursos adicionales
Índice
Sobre el autor

Content preview from Web Scraping con Python, 3.ª edición

Capítulo 5. Análisis avanzado de HTML

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Cuando preguntaron a Miguel Ángel cómo podía esculpir una obra de arte tan magistral como su David, se dice que respondió: "Es fácil. Sólo tienes que arrancar la piedra que no se parece a David".

Aunque el raspado web no es como esculpir mármol en la mayoría de los demás aspectos, debes adoptar una actitud similar cuando se trata de extraer la información que buscas de páginas web complicadas. En este capítulo, exploraremos varias técnicas para desmenuzar cualquier contenido que no se parezca al que quieres, hasta llegar a la información que buscas. Las páginas HTML complicadas pueden parecer intimidantes al principio, ¡pero sigue picando!

Otra ración de BeautifulSoup

En el Capítulo 4, echaste un vistazo rápido a la instalación y ejecución de BeautifulSoup, así como a la selección de objetos de uno en uno. En esta sección, hablaremos de la búsqueda de etiquetas por atributos, del trabajo con listas de etiquetas y de la navegación por árboles de análisis sintáctico.

Casi todos los sitios web que encuentras en contienen hojas de estilo. Las hojas de estilo se crean para que los navegadores web puedan convertir el HTML en diseños coloridos y estéticamente agradables para los humanos. Podrías pensar que esta capa de estilos es, como mínimo, perfectamente ignorable para los raspadores web, ¡pero no tan rápido! El CSS es, de hecho, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341630475

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Web Scraping con Python, 3.ª edición

by Ryan Mitchell

Capítulo 5. Análisis avanzado de HTML

Otra ración de BeautifulSoup

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.