book

Web Scraping con Python, 3.ª edición

Name: Web Scraping con Python, 3.ª edición
Author: Ryan Mitchell
ISBN: 9798341630475

by Ryan Mitchell

March 2025

Intermediate to advanced

352 pages

9h 37m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Qué es el Web Scraping?¿Por qué Web Scraping?Acerca de este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
I. Rascadores de edificios
1. Cómo funciona Internet
RedesCapa físicaCapa de enlace de datosCapa de redCapa de transporteCapa de sesiónCapa de presentaciónCapa de aplicaciónHTMLCSSJavaScriptVer sitios web con herramientas para desarrolladores
2. Legalidad y ética del Web Scraping
Marcas registradas, derechos de autor, patentes, ¡vaya por Dios!Ley de Propiedad IntelectualAllanamiento de moradaLa Ley contra el Fraude y el Abuso Informáticosrobots.txt y Condiciones del servicioTres raspadores webeBay contra el perímetro del postor y la usurpación de bienes mueblesEstados Unidos contra Auernheimer y la Ley contra el Fraude y el Abuso InformáticosField contra Google: Derechos de autor y robots.txt
3. Aplicaciones del Web Scraping
Clasificación de proyectosComercio electrónicoMarketingInvestigación académicaConstrucción de productosViaja aVentasRaspado SERP
4. Cómo escribir tu primer raspador web
Instalación y uso de JupyterConectandoIntroducción a BeautifulSoupInstalación de BeautifulSoupEjecutar BeautifulSoupConexión fiable y gestión de excepciones
5. Análisis avanzado de HTML
Otra ración de BeautifulSoupfind() y find_all() con BeautifulSoupOtros objetos de BeautifulSoupNavegar por los árbolesExpresiones regularesExpresiones regulares y BeautifulSoupAcceder a los atributosExpresiones LambdaNo siempre se necesita un martillo
6. Escribir rastreadores web
Atravesar un único dominioRastrear todo un sitio webRecopilación de datos de todo un centroRastreando Internet
7. Modelos de rastreo web
Planificación y definición de objetosDiferentes diseños de páginas webEstructuración de las orugasRastrear sitios a través de la búsquedaRastrear sitios a través de enlacesRastreo de varios tipos de páginasReflexiones sobre los modelos de rastreadores web
8. Scrapy
Instalación de ScrapyInicializar una nueva arañaEscribir un rascador sencilloAraña con reglasCrear elementosSalida de elementosLa tubería de artículosRegistro con ScrapyMás recursos

9. Almacenar datos
Archivos multimediaAlmacenar datos en CSVMySQLInstalar MySQLAlgunos comandos básicosIntegración con PythonTécnicas de bases de datos y buenas prácticas"Seis Grados" en MySQLEnvía un correo electrónico a
II. Raspado avanzado
10. Lectura de documentos
Codificación de documentosTextoCodificación de textos e Internet globalCSVLectura de archivos CSVPDFMicrosoft Word y .docx
11. Trabajar con datos sucios
Texto de limpiezaTrabajar con texto normalizadoLimpiar datos con PandasLimpiezaIndexar, ordenar y filtrarMás sobre los pandas
12. Lectura y escritura de lenguas naturales
Resumir datosModelos de MarkovSeis Grados de Wikipedia: ConclusiónConjunto de herramientas de lenguaje naturalInstalación y configuraciónAnálisis estadístico con NLTKAnálisis lexicográfico con NLTKRecursos adicionales
13. Rastrear formularios e inicios de sesión
Biblioteca de Peticiones PythonEnviar un formulario básicoBotones de radio, casillas de verificación y otras entradasEnvío de archivos e imágenesGestión de inicios de sesión y cookiesAutenticación básica de acceso HTTPOtros problemas de forma
14. Raspado de JavaScript
Breve introducción a JavaScriptBibliotecas comunes de JavaScriptAjax y HTML dinámicoEjecutar JavaScript en Python con SeleniumInstalar y ejecutar SeleniumSelectores de selenioEsperando para cargarXPathControladores Web de Selenio adicionalesGestión de redireccionamientosNota final sobre JavaScript
15. Rastreo a través de API
Breve introducción a las APIMétodos HTTP y APIMás sobre las respuestas de la APIAnálisis JSONAPIs no documentadasEncontrar APIs no documentadasDocumentar APIs no documentadasCombinar API con otras fuentes de datosMás sobre las API
16. Tratamiento de imágenes y reconocimiento de textos
Visión general de las bibliotecasAlmohadaTeseractoNumPyProcesar texto bien formateadoAjustar imágenes automáticamenteExtraer texto de imágenes de sitios webLectura de CAPTCHAs y entrenamiento de TesseractEntrenamiento TeseractoRecuperar CAPTCHAs y enviar soluciones
17. Evitar trampas de raspado
Una nota sobre éticaParecer humanoAjusta tus cabecerasManejar cookies con JavaScriptHuella digital TLSEl momento oportuno lo es todoElementos comunes de seguridad de los formulariosValores ocultos del campo de entradaEvitar los HoneypotsLa lista de control humana
18. Probar tu sitio web con scrapers
Introducción a las pruebas¿Qué son las pruebas unitarias?Python unittestPruebas WikipediaPruebas con SeleniumInteractuar con el Sitio
19. Raspado web en paralelo
Procesos frente a hilosRastreo multihiloCondiciones de carrera y colasMás funciones del módulo de roscadoProcesos múltiplesRastreo multiprocesoComunicación entre procesosRastreo multiproceso: otro enfoque
20. Proxies de raspado web
¿Por qué utilizar servidores remotos?Evitar el bloqueo de direcciones IPPortabilidad y extensibilidadTorPySocksAlojamiento remotoEjecutar desde una cuenta de alojamiento webEjecutar desde la nubeAvanzarProxies de raspado webScrapingBeeRascadorAPIOxylabsZyteRecursos adicionales
Índice
Sobre el autor

Content preview from Web Scraping con Python, 3.ª edición

Capítulo 11. Trabajar con datos sucios

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hasta ahora en este libro, he ignorado el problema de los datos mal formateados utilizando fuentes de datos generalmente bien formateadas, descartando por completo los datos si se desviaban de lo esperado. Pero, en el raspado web, a menudo no puedes ser demasiado exigente sobre dónde obtienes los datos o qué aspecto tienen.

Debido a la puntuación errónea, las mayúsculas incoherentes, los saltos de línea y las faltas de ortografía, los datos sucios pueden ser un gran problema en la Web. Este capítulo cubre algunas herramientas y técnicas que te ayudarán a prevenir el problema en su origen, cambiando la forma en que escribes el código y limpiando los datos después de que estén en la base de datos.

Este es el capítulo en el que el web scraping se cruza con su pariente cercano, la ciencia de datos. Aunque el título de "científico de datos" puede evocar imágenes mentales de técnicas de programación de perímetro y matemáticas avanzadas, la verdad es que gran parte es trabajo sucio. Alguien tiene que limpiar y normalizar esos millones de registros antes de que puedan utilizarse para construir un modelo de aprendizaje automático, y esa persona es el científico de datos .

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341630475

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Web Scraping con Python, 3.ª edición

by Ryan Mitchell

Capítulo 11. Trabajar con datos sucios

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.