Skip to Content
Web Scraping mit Python, 3. Auflage
book

Web Scraping mit Python, 3. Auflage

by Ryan Mitchell
March 2025
Intermediate to advanced
352 pages
9h 53m
German
O'Reilly Media, Inc.
Content preview from Web Scraping mit Python, 3. Auflage

Kapitel 6. Web Crawler schreiben

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bisher hast du einzelne statische Seiten mit etwas künstlichen Beispielen aus der Konserve gesehen. In diesem Kapitel beschäftigst du dich mit realen Problemen, bei denen Scraper mehrere Seiten und sogar mehrere Websites durchforsten.

Webcrawler heißen so , weil sie das Web durchkrabbeln. Ihr Kern ist ein Element der Rekursion. Sie müssen Seiteninhalte für eine URL abrufen, diese Seite auf andere URLs untersuchen und diese Seiten abrufen, und zwar unendlich oft.

Aber Vorsicht: Nur weil du das Web crawlen kannst, heißt das nicht, dass du es immer tun solltest. Die Scraper, die in den vorherigen Beispielen verwendet wurden, funktionieren gut, wenn alle Daten, die du brauchst, auf einer einzigen Seite stehen. Bei Web-Crawlern musst du genau darauf achten, wie viel Bandbreite du verbrauchst, und herausfinden, ob es eine Möglichkeit gibt, die Belastung des Zielservers zu verringern.

Durchqueren einer einzelnen Domäne

Auch wenn du noch nichts von Six Degrees of Wikipedia gehört hast, hast du vielleicht schon von seinem Namensvetter Six Degrees of Kevin Bacon gehört.1 Bei beiden Spielen geht es darum, zwei unwahrscheinliche Themen (im ersten Fall Wikipedia-Artikel, die miteinander verlinkt sind, und im zweiten Fall Schauspieler, die im selben Film mitspielen) mit einer Kette zu verbinden, die insgesamt nicht mehr als ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python für die Geodatenanalyse

Python für die Geodatenanalyse

Bonny P. McClain
High Performance Python, 3. Auflage

High Performance Python, 3. Auflage

Micha Gorelick, Ian Ozsvald

Publisher Resources

ISBN: 9798341628151