book

Web Scraping con Python, 3.ª edición

Name: Web Scraping con Python, 3.ª edición
Author: Ryan Mitchell
ISBN: 9798341630475

by Ryan Mitchell

March 2025

Intermediate to advanced

352 pages

9h 37m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Qué es el Web Scraping?¿Por qué Web Scraping?Acerca de este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
I. Rascadores de edificios
1. Cómo funciona Internet
RedesCapa físicaCapa de enlace de datosCapa de redCapa de transporteCapa de sesiónCapa de presentaciónCapa de aplicaciónHTMLCSSJavaScriptVer sitios web con herramientas para desarrolladores
2. Legalidad y ética del Web Scraping
Marcas registradas, derechos de autor, patentes, ¡vaya por Dios!Ley de Propiedad IntelectualAllanamiento de moradaLa Ley contra el Fraude y el Abuso Informáticosrobots.txt y Condiciones del servicioTres raspadores webeBay contra el perímetro del postor y la usurpación de bienes mueblesEstados Unidos contra Auernheimer y la Ley contra el Fraude y el Abuso InformáticosField contra Google: Derechos de autor y robots.txt
3. Aplicaciones del Web Scraping
Clasificación de proyectosComercio electrónicoMarketingInvestigación académicaConstrucción de productosViaja aVentasRaspado SERP
4. Cómo escribir tu primer raspador web
Instalación y uso de JupyterConectandoIntroducción a BeautifulSoupInstalación de BeautifulSoupEjecutar BeautifulSoupConexión fiable y gestión de excepciones
5. Análisis avanzado de HTML
Otra ración de BeautifulSoupfind() y find_all() con BeautifulSoupOtros objetos de BeautifulSoupNavegar por los árbolesExpresiones regularesExpresiones regulares y BeautifulSoupAcceder a los atributosExpresiones LambdaNo siempre se necesita un martillo
6. Escribir rastreadores web
Atravesar un único dominioRastrear todo un sitio webRecopilación de datos de todo un centroRastreando Internet
7. Modelos de rastreo web
Planificación y definición de objetosDiferentes diseños de páginas webEstructuración de las orugasRastrear sitios a través de la búsquedaRastrear sitios a través de enlacesRastreo de varios tipos de páginasReflexiones sobre los modelos de rastreadores web
8. Scrapy
Instalación de ScrapyInicializar una nueva arañaEscribir un rascador sencilloAraña con reglasCrear elementosSalida de elementosLa tubería de artículosRegistro con ScrapyMás recursos

9. Almacenar datos
Archivos multimediaAlmacenar datos en CSVMySQLInstalar MySQLAlgunos comandos básicosIntegración con PythonTécnicas de bases de datos y buenas prácticas"Seis Grados" en MySQLEnvía un correo electrónico a
II. Raspado avanzado
10. Lectura de documentos
Codificación de documentosTextoCodificación de textos e Internet globalCSVLectura de archivos CSVPDFMicrosoft Word y .docx
11. Trabajar con datos sucios
Texto de limpiezaTrabajar con texto normalizadoLimpiar datos con PandasLimpiezaIndexar, ordenar y filtrarMás sobre los pandas
12. Lectura y escritura de lenguas naturales
Resumir datosModelos de MarkovSeis Grados de Wikipedia: ConclusiónConjunto de herramientas de lenguaje naturalInstalación y configuraciónAnálisis estadístico con NLTKAnálisis lexicográfico con NLTKRecursos adicionales
13. Rastrear formularios e inicios de sesión
Biblioteca de Peticiones PythonEnviar un formulario básicoBotones de radio, casillas de verificación y otras entradasEnvío de archivos e imágenesGestión de inicios de sesión y cookiesAutenticación básica de acceso HTTPOtros problemas de forma
14. Raspado de JavaScript
Breve introducción a JavaScriptBibliotecas comunes de JavaScriptAjax y HTML dinámicoEjecutar JavaScript en Python con SeleniumInstalar y ejecutar SeleniumSelectores de selenioEsperando para cargarXPathControladores Web de Selenio adicionalesGestión de redireccionamientosNota final sobre JavaScript
15. Rastreo a través de API
Breve introducción a las APIMétodos HTTP y APIMás sobre las respuestas de la APIAnálisis JSONAPIs no documentadasEncontrar APIs no documentadasDocumentar APIs no documentadasCombinar API con otras fuentes de datosMás sobre las API
16. Tratamiento de imágenes y reconocimiento de textos
Visión general de las bibliotecasAlmohadaTeseractoNumPyProcesar texto bien formateadoAjustar imágenes automáticamenteExtraer texto de imágenes de sitios webLectura de CAPTCHAs y entrenamiento de TesseractEntrenamiento TeseractoRecuperar CAPTCHAs y enviar soluciones
17. Evitar trampas de raspado
Una nota sobre éticaParecer humanoAjusta tus cabecerasManejar cookies con JavaScriptHuella digital TLSEl momento oportuno lo es todoElementos comunes de seguridad de los formulariosValores ocultos del campo de entradaEvitar los HoneypotsLa lista de control humana
18. Probar tu sitio web con scrapers
Introducción a las pruebas¿Qué son las pruebas unitarias?Python unittestPruebas WikipediaPruebas con SeleniumInteractuar con el Sitio
19. Raspado web en paralelo
Procesos frente a hilosRastreo multihiloCondiciones de carrera y colasMás funciones del módulo de roscadoProcesos múltiplesRastreo multiprocesoComunicación entre procesosRastreo multiproceso: otro enfoque
20. Proxies de raspado web
¿Por qué utilizar servidores remotos?Evitar el bloqueo de direcciones IPPortabilidad y extensibilidadTorPySocksAlojamiento remotoEjecutar desde una cuenta de alojamiento webEjecutar desde la nubeAvanzarProxies de raspado webScrapingBeeRascadorAPIOxylabsZyteRecursos adicionales
Índice
Sobre el autor

Content preview from Web Scraping con Python, 3.ª edición

Parte I. Construcción de rascadores

La primera parte de este libro se centra en la mecánica básica del web scraping: cómo utilizar Python para solicitar información a un servidor web, cómo realizar una manipulación básica de la respuesta del servidor y cómo empezar a interactuar con un sitio web de forma automatizada. Al final, estarás navegando por Internet con facilidad, construyendo raspadores que pueden saltar de un dominio a otro, recopilar información y almacenarla para su uso posterior.

Para ser honesto, el web scraping es un campo fantástico en el que introducirse si quieres obtener grandes beneficios a cambio de una inversión inicial relativamente pequeña. Con toda probabilidad, el 90% de los proyectos de web scraping que te encuentres se basarán en las técnicas utilizadas en los 6 capítulos siguientes. Esta sección trata de lo que el público en general (aunque con conocimientos técnicos) tiende a pensar cuando piensa en "raspadores web":

Recuperar datos HTML de un nombre de dominio
Analizar esos datos para obtener información sobre el objetivo
Almacenar la información del objetivo
Opcionalmente, pasar a otra página para repetir el proceso

Esto te dará una base sólida antes de pasar a proyectos más complejos en la Parte II. No te engañes pensando que esta primera sección no es tan importante como algunos de los proyectos más avanzados de la segunda mitad. ¡Utilizarás casi toda la información de la primera mitad de este libro a diario mientras escribes web scrapers! ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341630475

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Web Scraping con Python, 3.ª edición

by Ryan Mitchell

Parte I. Construcción de rascadores

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.