February 2008
Intermediate to advanced
400 pages
10h
German
Ich gehe jetzt einmal davon aus, dass Sie keine große Sammlung an HTML-Dokumenten haben, die auf Ihrer Festplatte herumlungern und darauf warten, dass sie indexiert werden, daher werde ich Ihnen zeigen, wie Sie einen einfachen Crawler erstellen können. Er wird mit einer kleinen Zahl an Seiten gefüttert werden, die zu indexieren sind, und dann allen Links auf diesen Seiten folgen, um andere Seiten zu finden, deren Links er auch folgen wird. Dieser Prozess wird als Crawling oder Spidering bezeichnet.
Dazu muss Ihr Code die Seiten herunterladen, sie an den Indexer übergeben (den Sie im nächsten Abschnitt bauen) und dann parsen, um alle Links zu finden, die Sie als Nächstes ansteuern werden. Glücklicherweise gibt es eine Reihe ...