book

Web Scraping mit Python, 3. Auflage

Name: Web Scraping mit Python, 3. Auflage
Author: Ryan Mitchell
ISBN: 9798341628151

by Ryan Mitchell

March 2025

Intermediate to advanced

352 pages

9h 53m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Was ist Web Scraping?Warum Web Scraping?Über dieses BuchIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
I. Gebäudeabstreifer
1. Wie das Internet funktioniert
NetworkingPhysikalische SchichtDatenübertragungsschichtNetwork+ SchichtTransportschichtSitzungsschichtPräsentationsschichtAnwendungsschichtHTMLCSSJavaScriptWebsites mit Entwickler-Tools beobachten
2. Die rechtlichen und ethischen Aspekte von Web Scraping
Warenzeichen, Urheberrechte, Patente, oh je!UrheberrechtsgesetzUnerlaubtes Betreten von beweglichem EigentumDer Computer Fraud and Abuse Actrobots.txt und NutzungsbedingungenDrei Web ScrapereBay gegen Bidder's Edge und Hausfriedensbruch bei beweglichen SachenVereinigte Staaten gegen Auernheimer und der Computer Fraud and Abuse ActField vs. Google: Urheberrecht und robots.txt
3. Anwendungen von Web Scraping
Projekte klassifizierenE-CommerceMarketingAkademische ForschungProdukt GebäudeReisenVerkäufeSERP Scraping
4. Deinen ersten Web Scraper schreiben
Installation und Verwendung von JupyterVerbindenEine Einführung in BeautifulSoupInstallation von BeautifulSoupLaufen BeautifulSoupZuverlässig verbinden und Ausnahmen behandeln
5. Fortgeschrittenes HTML-Parsing
Eine weitere Portion BeautifulSoupfind() und find_all() mit BeautifulSoupAndere BeautifulSoup-ObjekteBäume navigierenReguläre AusdrückeReguläre Ausdrücke und BeautifulSoupZugriff auf AttributeLambda-AusdrückeDu brauchst nicht immer einen Hammer
6. Web Crawler schreiben
Durchqueren einer einzelnen DomäneCrawlen einer ganzen WebsiteErfassen von Daten über einen gesamten StandortCrawling durch das Internet
7. Web Crawling Modelle
Planung und Definition von ObjektenUmgang mit verschiedenen Website-LayoutsCrawler strukturierenWebsites durch die Suche crawlenWebsites über Links crawlenMehrere Seitentypen crawlenNachdenken über Web Crawler Modelle
8. Scrapy
Scrapy installierenInitialisierung einer neuen SpinneEinen einfachen Scraper schreibenSpidering mit RegelnArtikel erstellenArtikel ausgebenDie Item-PipelineLoggen mit ScrapyMehr Ressourcen

9. Speichern von Daten
Medien-DateienSpeichern von Daten in CSVMySQLInstallation von MySQLEinige grundlegende BefehleIntegration mit PythonDatenbanktechniken und bewährte Verfahren"Six Degrees" in MySQLE-Mail
II. Fortgeschrittenes Scraping
10. Dokumente lesen
DokumentenkodierungTextTextkodierung und das globale InternetCSVCSV-Dateien lesenPDFMicrosoft Word und .docx
11. Mit schmutzigen Daten arbeiten
Text reinigenMit normalisiertem Text arbeitenDaten mit Pandas bereinigenReinigungIndizierung, Sortierung und FilterungMehr über Pandas
12. Natürliche Sprachen lesen und schreiben
Daten zusammenfassenMarkov-ModelleDie sechs Stufen der Wikipedia: FazitNatural Language ToolkitInstallation und EinrichtungStatistische Analyse mit NLTKLexikografische Analyse mit NLTKZusätzliche Ressourcen
13. Crawling durch Formulare und Logins
Python AnforderungsbibliothekEin Grundformular einreichenOptionsschaltflächen, Kontrollkästchen und andere EingabenDateien und Bilder einreichenUmgang mit Logins und CookiesHTTP Basic Access AuthentifizierungAndere Formularprobleme
14. Scraping JavaScript
Eine kurze Einführung in JavaScriptGemeinsame JavaScript-BibliothekenAjax und dynamisches HTMLAusführen von JavaScript in Python mit SeleniumInstallieren und Ausführen von SeleniumSelenium SelektorenWarten auf das LadenXPathZusätzliche Selenium WebDriverUmgang mit UmleitungenEin letzter Hinweis zu JavaScript
15. Crawling durch APIs
Eine kurze Einführung in APIsHTTP-Methoden und APIsMehr über API-AntwortenParsen von JSONUndokumentierte APIsSuche nach undokumentierten APIsUndokumentierte APIs dokumentierenKombinieren von APIs mit anderen DatenquellenMehr über APIs
16. Bildverarbeitung und Texterkennung
Übersicht der BibliothekenKopfkissenTesseraktNumPyGut formatierten Text verarbeitenAutomatisches Anpassen von BildernText aus Bildern auf Websites auslesenCAPTCHAs lesen und Tesseract trainierenAusbildung TesseractCAPTCHAs abrufen und Lösungen einreichen
17. Vermeiden von Scraping-Fallen
Ein Hinweis zur EthikWie ein Mensch aussehenKopfzeilen anpassenUmgang mit Cookies mit JavaScriptTLS-FingerprintingTiming ist allesGemeinsame Sicherheitsmerkmale des FormularsVersteckte EingabefeldwerteVermeidung von HoneypotsDie menschliche Checkliste
18. Testen deiner Website mit Scrapern
Eine Einführung in das TestenWas sind Unit Tests?Python unittestPrüfung WikipediaTesten mit SeleniumMit der Website interagieren
19. Paralleles Web Scraping
Prozesse versus ThreadsMultithreaded CrawlingRennbedingungen und WarteschlangenWeitere Funktionen des EinfädelmodulsMehrere ProzesseMultiprozess-CrawlingKommunikation zwischen ProzessenCrawling mit mehreren Prozessen - eine andere Herangehensweise
20. Web Scraping Proxies
Warum Remote Server verwenden?IP-Adressen-Sperrung vermeidenÜbertragbarkeit und ErweiterbarkeitTorPySocksRemote HostingAusführen von einem Website-Hosting-KontoAus der Cloud laufenVorwärts bewegenWeb Scraping ProxiesScrapingBeeScraperAPIOxylabsZyteZusätzliche Ressourcen
Index
Über den Autor

Content preview from Web Scraping mit Python, 3. Auflage

Kapitel 6. Web Crawler schreiben

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bisher hast du einzelne statische Seiten mit etwas künstlichen Beispielen aus der Konserve gesehen. In diesem Kapitel beschäftigst du dich mit realen Problemen, bei denen Scraper mehrere Seiten und sogar mehrere Websites durchforsten.

Webcrawler heißen so , weil sie das Web durchkrabbeln. Ihr Kern ist ein Element der Rekursion. Sie müssen Seiteninhalte für eine URL abrufen, diese Seite auf andere URLs untersuchen und diese Seiten abrufen, und zwar unendlich oft.

Aber Vorsicht: Nur weil du das Web crawlen kannst, heißt das nicht, dass du es immer tun solltest. Die Scraper, die in den vorherigen Beispielen verwendet wurden, funktionieren gut, wenn alle Daten, die du brauchst, auf einer einzigen Seite stehen. Bei Web-Crawlern musst du genau darauf achten, wie viel Bandbreite du verbrauchst, und herausfinden, ob es eine Möglichkeit gibt, die Belastung des Zielservers zu verringern.

Durchqueren einer einzelnen Domäne

Auch wenn du noch nichts von Six Degrees of Wikipedia gehört hast, hast du vielleicht schon von seinem Namensvetter Six Degrees of Kevin Bacon gehört.¹ Bei beiden Spielen geht es darum, zwei unwahrscheinliche Themen (im ersten Fall Wikipedia-Artikel, die miteinander verlinkt sind, und im zweiten Fall Schauspieler, die im selben Film mitspielen) mit einer Kette zu verbinden, die insgesamt nicht mehr als ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341628151

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Web Scraping mit Python, 3. Auflage

by Ryan Mitchell

Kapitel 6. Web Crawler schreiben

Durchqueren einer einzelnen Domäne

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.