book

Web Scraping con Python, 3.ª edición

Name: Web Scraping con Python, 3.ª edición
Author: Ryan Mitchell
ISBN: 9798341630475

by Ryan Mitchell

March 2025

Intermediate to advanced

352 pages

9h 37m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Qué es el Web Scraping?¿Por qué Web Scraping?Acerca de este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
I. Rascadores de edificios
1. Cómo funciona Internet
RedesCapa físicaCapa de enlace de datosCapa de redCapa de transporteCapa de sesiónCapa de presentaciónCapa de aplicaciónHTMLCSSJavaScriptVer sitios web con herramientas para desarrolladores
2. Legalidad y ética del Web Scraping
Marcas registradas, derechos de autor, patentes, ¡vaya por Dios!Ley de Propiedad IntelectualAllanamiento de moradaLa Ley contra el Fraude y el Abuso Informáticosrobots.txt y Condiciones del servicioTres raspadores webeBay contra el perímetro del postor y la usurpación de bienes mueblesEstados Unidos contra Auernheimer y la Ley contra el Fraude y el Abuso InformáticosField contra Google: Derechos de autor y robots.txt
3. Aplicaciones del Web Scraping
Clasificación de proyectosComercio electrónicoMarketingInvestigación académicaConstrucción de productosViaja aVentasRaspado SERP
4. Cómo escribir tu primer raspador web
Instalación y uso de JupyterConectandoIntroducción a BeautifulSoupInstalación de BeautifulSoupEjecutar BeautifulSoupConexión fiable y gestión de excepciones
5. Análisis avanzado de HTML
Otra ración de BeautifulSoupfind() y find_all() con BeautifulSoupOtros objetos de BeautifulSoupNavegar por los árbolesExpresiones regularesExpresiones regulares y BeautifulSoupAcceder a los atributosExpresiones LambdaNo siempre se necesita un martillo
6. Escribir rastreadores web
Atravesar un único dominioRastrear todo un sitio webRecopilación de datos de todo un centroRastreando Internet
7. Modelos de rastreo web
Planificación y definición de objetosDiferentes diseños de páginas webEstructuración de las orugasRastrear sitios a través de la búsquedaRastrear sitios a través de enlacesRastreo de varios tipos de páginasReflexiones sobre los modelos de rastreadores web
8. Scrapy
Instalación de ScrapyInicializar una nueva arañaEscribir un rascador sencilloAraña con reglasCrear elementosSalida de elementosLa tubería de artículosRegistro con ScrapyMás recursos

9. Almacenar datos
Archivos multimediaAlmacenar datos en CSVMySQLInstalar MySQLAlgunos comandos básicosIntegración con PythonTécnicas de bases de datos y buenas prácticas"Seis Grados" en MySQLEnvía un correo electrónico a
II. Raspado avanzado
10. Lectura de documentos
Codificación de documentosTextoCodificación de textos e Internet globalCSVLectura de archivos CSVPDFMicrosoft Word y .docx
11. Trabajar con datos sucios
Texto de limpiezaTrabajar con texto normalizadoLimpiar datos con PandasLimpiezaIndexar, ordenar y filtrarMás sobre los pandas
12. Lectura y escritura de lenguas naturales
Resumir datosModelos de MarkovSeis Grados de Wikipedia: ConclusiónConjunto de herramientas de lenguaje naturalInstalación y configuraciónAnálisis estadístico con NLTKAnálisis lexicográfico con NLTKRecursos adicionales
13. Rastrear formularios e inicios de sesión
Biblioteca de Peticiones PythonEnviar un formulario básicoBotones de radio, casillas de verificación y otras entradasEnvío de archivos e imágenesGestión de inicios de sesión y cookiesAutenticación básica de acceso HTTPOtros problemas de forma
14. Raspado de JavaScript
Breve introducción a JavaScriptBibliotecas comunes de JavaScriptAjax y HTML dinámicoEjecutar JavaScript en Python con SeleniumInstalar y ejecutar SeleniumSelectores de selenioEsperando para cargarXPathControladores Web de Selenio adicionalesGestión de redireccionamientosNota final sobre JavaScript
15. Rastreo a través de API
Breve introducción a las APIMétodos HTTP y APIMás sobre las respuestas de la APIAnálisis JSONAPIs no documentadasEncontrar APIs no documentadasDocumentar APIs no documentadasCombinar API con otras fuentes de datosMás sobre las API
16. Tratamiento de imágenes y reconocimiento de textos
Visión general de las bibliotecasAlmohadaTeseractoNumPyProcesar texto bien formateadoAjustar imágenes automáticamenteExtraer texto de imágenes de sitios webLectura de CAPTCHAs y entrenamiento de TesseractEntrenamiento TeseractoRecuperar CAPTCHAs y enviar soluciones
17. Evitar trampas de raspado
Una nota sobre éticaParecer humanoAjusta tus cabecerasManejar cookies con JavaScriptHuella digital TLSEl momento oportuno lo es todoElementos comunes de seguridad de los formulariosValores ocultos del campo de entradaEvitar los HoneypotsLa lista de control humana
18. Probar tu sitio web con scrapers
Introducción a las pruebas¿Qué son las pruebas unitarias?Python unittestPruebas WikipediaPruebas con SeleniumInteractuar con el Sitio
19. Raspado web en paralelo
Procesos frente a hilosRastreo multihiloCondiciones de carrera y colasMás funciones del módulo de roscadoProcesos múltiplesRastreo multiprocesoComunicación entre procesosRastreo multiproceso: otro enfoque
20. Proxies de raspado web
¿Por qué utilizar servidores remotos?Evitar el bloqueo de direcciones IPPortabilidad y extensibilidadTorPySocksAlojamiento remotoEjecutar desde una cuenta de alojamiento webEjecutar desde la nubeAvanzarProxies de raspado webScrapingBeeRascadorAPIOxylabsZyteRecursos adicionales
Índice
Sobre el autor

Content preview from Web Scraping con Python, 3.ª edición

Capítulo 19. Web Scraping en paralelo

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El rastreo web es rápido. Al menos, ¡suele ser mucho más rápido que contratar a una docena de becarios para que copien datos de Internet a mano! Por supuesto, la progresión de la tecnología y la rueda de molino hedónica exigen que en un momento dado ni siquiera esto sea "suficientemente rápido". Ése es el punto en el que la gente suele empezar a mirar hacia la informática distribuida.

A diferencia de la mayoría de los demás campos tecnológicos, el rastreo web a menudo no puede mejorarse simplemente "lanzando más ciclos al problema". Ejecutar un proceso es rápido; ejecutar dos procesos no es necesariamente el doble de rápido. ¡Ejecutar tres procesos puede hacer que te expulsen del servidor remoto al que estás martilleando con todas tus peticiones!

Sin embargo, en algunas situaciones el rastreo web paralelo, o la ejecución de hilos o procesos paralelos, puede seguir siendo beneficioso:

Recoger datos de varias fuentes (varios servidores remotos) en lugar de una sola fuente
Realizar operaciones largas o complejas en los datos recogidos (como hacer análisis de imágenes u OCR) que podrían hacerse en paralelo a la obtención de los datos.
Recopilar datos de un gran servicio web en el que pagas por cada consulta, o en el que la creación de múltiples conexiones al servicio está dentro de los límites de tu acuerdo de uso.

Procesos ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341630475

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Web Scraping con Python, 3.ª edición

by Ryan Mitchell

Capítulo 19. Web Scraping en paralelo

Procesos ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.