book

Web Scraping con Python, 3.ª edición

Name: Web Scraping con Python, 3.ª edición
Author: Ryan Mitchell
ISBN: 9798341630475

by Ryan Mitchell

March 2025

Intermediate to advanced

352 pages

9h 37m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Qué es el Web Scraping?¿Por qué Web Scraping?Acerca de este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
I. Rascadores de edificios
1. Cómo funciona Internet
RedesCapa físicaCapa de enlace de datosCapa de redCapa de transporteCapa de sesiónCapa de presentaciónCapa de aplicaciónHTMLCSSJavaScriptVer sitios web con herramientas para desarrolladores
2. Legalidad y ética del Web Scraping
Marcas registradas, derechos de autor, patentes, ¡vaya por Dios!Ley de Propiedad IntelectualAllanamiento de moradaLa Ley contra el Fraude y el Abuso Informáticosrobots.txt y Condiciones del servicioTres raspadores webeBay contra el perímetro del postor y la usurpación de bienes mueblesEstados Unidos contra Auernheimer y la Ley contra el Fraude y el Abuso InformáticosField contra Google: Derechos de autor y robots.txt
3. Aplicaciones del Web Scraping
Clasificación de proyectosComercio electrónicoMarketingInvestigación académicaConstrucción de productosViaja aVentasRaspado SERP
4. Cómo escribir tu primer raspador web
Instalación y uso de JupyterConectandoIntroducción a BeautifulSoupInstalación de BeautifulSoupEjecutar BeautifulSoupConexión fiable y gestión de excepciones
5. Análisis avanzado de HTML
Otra ración de BeautifulSoupfind() y find_all() con BeautifulSoupOtros objetos de BeautifulSoupNavegar por los árbolesExpresiones regularesExpresiones regulares y BeautifulSoupAcceder a los atributosExpresiones LambdaNo siempre se necesita un martillo
6. Escribir rastreadores web
Atravesar un único dominioRastrear todo un sitio webRecopilación de datos de todo un centroRastreando Internet
7. Modelos de rastreo web
Planificación y definición de objetosDiferentes diseños de páginas webEstructuración de las orugasRastrear sitios a través de la búsquedaRastrear sitios a través de enlacesRastreo de varios tipos de páginasReflexiones sobre los modelos de rastreadores web
8. Scrapy
Instalación de ScrapyInicializar una nueva arañaEscribir un rascador sencilloAraña con reglasCrear elementosSalida de elementosLa tubería de artículosRegistro con ScrapyMás recursos

9. Almacenar datos
Archivos multimediaAlmacenar datos en CSVMySQLInstalar MySQLAlgunos comandos básicosIntegración con PythonTécnicas de bases de datos y buenas prácticas"Seis Grados" en MySQLEnvía un correo electrónico a
II. Raspado avanzado
10. Lectura de documentos
Codificación de documentosTextoCodificación de textos e Internet globalCSVLectura de archivos CSVPDFMicrosoft Word y .docx
11. Trabajar con datos sucios
Texto de limpiezaTrabajar con texto normalizadoLimpiar datos con PandasLimpiezaIndexar, ordenar y filtrarMás sobre los pandas
12. Lectura y escritura de lenguas naturales
Resumir datosModelos de MarkovSeis Grados de Wikipedia: ConclusiónConjunto de herramientas de lenguaje naturalInstalación y configuraciónAnálisis estadístico con NLTKAnálisis lexicográfico con NLTKRecursos adicionales
13. Rastrear formularios e inicios de sesión
Biblioteca de Peticiones PythonEnviar un formulario básicoBotones de radio, casillas de verificación y otras entradasEnvío de archivos e imágenesGestión de inicios de sesión y cookiesAutenticación básica de acceso HTTPOtros problemas de forma
14. Raspado de JavaScript
Breve introducción a JavaScriptBibliotecas comunes de JavaScriptAjax y HTML dinámicoEjecutar JavaScript en Python con SeleniumInstalar y ejecutar SeleniumSelectores de selenioEsperando para cargarXPathControladores Web de Selenio adicionalesGestión de redireccionamientosNota final sobre JavaScript
15. Rastreo a través de API
Breve introducción a las APIMétodos HTTP y APIMás sobre las respuestas de la APIAnálisis JSONAPIs no documentadasEncontrar APIs no documentadasDocumentar APIs no documentadasCombinar API con otras fuentes de datosMás sobre las API
16. Tratamiento de imágenes y reconocimiento de textos
Visión general de las bibliotecasAlmohadaTeseractoNumPyProcesar texto bien formateadoAjustar imágenes automáticamenteExtraer texto de imágenes de sitios webLectura de CAPTCHAs y entrenamiento de TesseractEntrenamiento TeseractoRecuperar CAPTCHAs y enviar soluciones
17. Evitar trampas de raspado
Una nota sobre éticaParecer humanoAjusta tus cabecerasManejar cookies con JavaScriptHuella digital TLSEl momento oportuno lo es todoElementos comunes de seguridad de los formulariosValores ocultos del campo de entradaEvitar los HoneypotsLa lista de control humana
18. Probar tu sitio web con scrapers
Introducción a las pruebas¿Qué son las pruebas unitarias?Python unittestPruebas WikipediaPruebas con SeleniumInteractuar con el Sitio
19. Raspado web en paralelo
Procesos frente a hilosRastreo multihiloCondiciones de carrera y colasMás funciones del módulo de roscadoProcesos múltiplesRastreo multiprocesoComunicación entre procesosRastreo multiproceso: otro enfoque
20. Proxies de raspado web
¿Por qué utilizar servidores remotos?Evitar el bloqueo de direcciones IPPortabilidad y extensibilidadTorPySocksAlojamiento remotoEjecutar desde una cuenta de alojamiento webEjecutar desde la nubeAvanzarProxies de raspado webScrapingBeeRascadorAPIOxylabsZyteRecursos adicionales
Índice
Sobre el autor

Content preview from Web Scraping con Python, 3.ª edición

Capítulo 17. Evitar trampas de raspado

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Pocas cosas hay más frustrantes que escrapear un sitio, ver el resultado y no ver los datos que son tan claramente visibles en tu navegador. O enviar un formulario que debería funcionar perfectamente, pero que el servidor web deniega. O que un sitio bloquee tu dirección IP por razones desconocidas.

Estos son algunos de los fallos más difíciles de resolver, no sólo porque pueden ser tan inesperados (un script que funciona perfectamente en un sitio puede no funcionar en absoluto en otro sitio aparentemente idéntico), sino porque no tienen a propósito ningún mensaje de error revelador ni ningún rastro de pila que utilizar. Te han identificado como un bot, te han rechazado, y no sabes por qué.

En este libro he escrito sobre muchas formas de hacer cosas complicadas en los sitios web, como enviar formularios, extraer y limpiar datos difíciles y ejecutar JavaScript. Este capítulo es una especie de cajón de sastre, ya que las técnicas proceden de una gran variedad de temas. Sin embargo, todas tienen algo en común: están pensadas para superar un obstáculo puesto con el único propósito de impedir el scraping automatizado de un sitio.

Independientemente de la utilidad inmediata que esta información tenga para ti en ese momento, te recomiendo encarecidamente que al menos hojees este capítulo. Nunca se sabe cuándo puede ayudarte a resolver ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341630475

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Web Scraping con Python, 3.ª edición

by Ryan Mitchell

Capítulo 17. Evitar trampas de raspado

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.