Rozdział 3. Tworzenie robotów indeksujących
Do tej pory zajmowaliśmy pojedynczymi stronami stanowiącymi niejako sztuczne przykłady. W tym rozdziale przejdziemy do rzeczywistych problemów, w których pełzacze będą się poruszać pomiędzy wieloma stronami, a nawet serwisami.
Roboty indeksujące zwane są również robotami internetowymi lub pełzaczami (ang. web crawlers), ponieważ „pełzają” po internecie. Podstawą ich działania jest rekurencyjność. Muszą odczytywać treść strony z adresu URL, sprawdzać tę stronę w poszukiwaniu innych adresów URL i pobierać strony umieszczone za tymi adresami itd.
Uważaj jednak: to, że możesz „pełzać” po internecie, nie zawsze oznacza, że powinieneś to robić. Roboty indeksujące użyte w poprzednich rozdziałach spisują się ...
Get Ekstrakcja danych z językiem Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.