Rozdział 3. Tworzenie robotów indeksujących

Do tej pory zajmowaliśmy pojedynczymi stronami stanowiącymi niejako sztuczne przykłady. W tym rozdziale przejdziemy do rzeczywistych problemów, w których pełzacze będą się poruszać pomiędzy wieloma stronami, a nawet serwisami.

Roboty indeksujące zwane są również robotami internetowymi lub pełzaczami (ang. web crawlers), ponieważ „pełzają” po internecie. Podstawą ich działania jest rekurencyjność. Muszą odczytywać treść strony z adresu URL, sprawdzać tę stronę w poszukiwaniu innych adresów URL i pobierać strony umieszczone za tymi adresami itd.

Uważaj jednak: to, że możesz „pełzać” po internecie, nie zawsze oznacza, że powinieneś to robić. Roboty indeksujące użyte w poprzednich rozdziałach spisują się ...

Get Ekstrakcja danych z językiem Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.