Kapitel 6. Web Crawler schreiben
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Bisher hast du einzelne statische Seiten mit etwas künstlichen Beispielen aus der Konserve gesehen. In diesem Kapitel beschäftigst du dich mit realen Problemen, bei denen Scraper mehrere Seiten und sogar mehrere Websites durchforsten.
Webcrawler heißen so , weil sie das Web durchkrabbeln. Ihr Kern ist ein Element der Rekursion. Sie müssen Seiteninhalte für eine URL abrufen, diese Seite auf andere URLs untersuchen und diese Seiten abrufen, und zwar unendlich oft.
Aber Vorsicht: Nur weil du das Web crawlen kannst, heißt das nicht, dass du es immer tun solltest. Die Scraper, die in den vorherigen Beispielen verwendet wurden, funktionieren gut, wenn alle Daten, die du brauchst, auf einer einzigen Seite stehen. Bei Web-Crawlern musst du genau darauf achten, wie viel Bandbreite du verbrauchst, und herausfinden, ob es eine Möglichkeit gibt, die Belastung des Zielservers zu verringern.
Durchqueren einer einzelnen Domäne
Auch wenn du noch nichts von Six Degrees of Wikipedia gehört hast, hast du vielleicht schon von seinem Namensvetter Six Degrees of Kevin Bacon gehört.1 Bei beiden Spielen geht es darum, zwei unwahrscheinliche Themen (im ersten Fall Wikipedia-Artikel, die miteinander verlinkt sind, und im zweiten Fall Schauspieler, die im selben Film mitspielen) mit einer Kette zu verbinden, die insgesamt nicht mehr als ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access