Rozdział 14. Unikanie pułapek na boty

Nic tak nie wkurza, jak sytuacja, gdy po ekstrakcji danych przeglądamy uzyskane wyniki i okazuje się, że nie ma wśród nich informacji, które są wyraźnie widoczne w przeglądarce. Albo wysłanie idealnie sformatowanego formularza po to tylko, żeby został odrzucony przez serwer. Albo zablokowanie adresu IP w danym serwisie z nieznanych powodów.

Są to jedne z najtrudniejszych problemów do rozwiązania, nie tylko z powodu ich nieprzewidywalności (skrypt działający bez zarzutu w jednej witrynie może okazać się zupełnie bezużyteczny w innym, pozornie identycznym serwisie), lecz również dlatego, że celowo nie generują one żadnych komunikatów o błędach lub stosów wywołań. Zostałeś rozpoznany jako bot, odrzucony i nawet ...

Get Ekstrakcja danych z językiem Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.