CHAPTER 12

스크레이핑 함정 피하기

사이트를 스크랩하고 출력 결과를 봤더니 브라우저에서 보이는 데이터가 보이지 않는다면 힘이 빠질 것입니다. 폼을 완벽하게 작성해서 전송했는데 웹 서버가 거부할 때도 있습니다. 당신이 알지 못하는 이유로 IP 주소가 차단당할 때도 있습니다.

이런 것들은 해결하기 매우 어려운 버그입니다. 어떤 사이트에서는 완벽하게 동작하는 스크립트가, 겉보기에는 똑같아 보이는 다른 사이트에서는 전혀 동작하지 않는 등 예측하기도 어려울 뿐 아니라, 의도적으로 에러 메시지나 스택 추적을 제공하지 않기 때문입니다. 당신은 봇으로 분류되고, 거부당하고 있는데 이유를 모르고 있습니다.

이 책에서는 폼을 전송하고, 지저분한 데이터를 추출해서 정리하고, 자바스크립트를 실행하는 등 웹사이트에서 봇으로 하기 어려운 일들을 하는 방법을 많이 설명했습니다. 이 장은 다양한 주제(예를 들자면 HTTP 헤더, CSS, HTML 폼 등)에서 뻗어 나온 테크닉들을 한데 모은 것에 가깝습니다. 하지만 공통점도 있습니다. 이들은 모두 사이트에서 자동화된 웹 스크레이핑을 막으려는 유일한 목적으로 설치한 걸림돌들입니다.

이 장에서 설명하는 것들이 당장 어떤 도움이 되지 않는다고 하더라도 최소한 훑어보기는 하길 권합니다. 나중에 언제라도, 매우 어려운 ...

Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.