February 2019
Intermediate to advanced
272 pages
8h 26m
Polish
Do tej pory zajmowaliśmy pojedynczymi stronami stanowiącymi niejako sztuczne przykłady. W tym rozdziale przejdziemy do rzeczywistych problemów, w których pełzacze będą się poruszać pomiędzy wieloma stronami, a nawet serwisami.
Roboty indeksujące zwane są również robotami internetowymi lub pełzaczami (ang. web crawlers), ponieważ „pełzają” po internecie. Podstawą ich działania jest rekurencyjność. Muszą odczytywać treść strony z adresu URL, sprawdzać tę stronę w poszukiwaniu innych adresów URL i pobierać strony umieszczone za tymi adresami itd.
Uważaj jednak: to, że możesz „pełzać” po internecie, nie zawsze oznacza, że powinieneś to robić. Roboty indeksujące użyte w poprzednich rozdziałach spisują się ...