Rozdział 14. Unikanie pułapek na boty

Nic tak nie wkurza, jak sytuacja, gdy po ekstrakcji danych przeglądamy uzyskane wyniki i okazuje się, że nie ma wśród nich informacji, które są wyraźnie widoczne w przeglądarce. Albo wysłanie idealnie sformatowanego formularza po to tylko, żeby został odrzucony przez serwer. Albo zablokowanie adresu IP w danym serwisie z nieznanych powodów.

Są to jedne z najtrudniejszych problemów do rozwiązania, nie tylko z powodu ich nieprzewidywalności (skrypt działający bez zarzutu w jednej witrynie może okazać się zupełnie bezużyteczny w innym, pozornie identycznym serwisie), lecz również dlatego, że celowo nie generują one żadnych komunikatów o błędach lub stosów wywołań. Zostałeś rozpoznany jako bot, odrzucony i nawet ...

Get Ekstrakcja danych z językiem Python now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.