
259
9
장 웹 로봇
The Definitive Guide
터 접근 등)을 포함한 서버 측의 동적인 동작은 중복 감지를 방해할 수 있다.
사람의 모니터링
웹은 거친 곳이다. 로봇은 결국 자신에게 적용된 어떤 기법으로도 해결할 수 없는
문제에 봉착하게 될 것이다. 모든 상용 수준의 로봇은 사람이 쉽게 로봇의 진행 상
황을 모니터링해서 뭔가 특이한 일이 일어나면 즉각 인지할 수 있게끔 반드시 진단
과 로깅을 포함하도록 설계되어야 한다. 그렇지 않으면 화가 난 누리꾼들이 당신에
게 보낸 험악한 이메일을 통해 문제를 인지하게 될지도 모른다.
웹과 같이 거대한 데이터 집합을 크롤링하기 위한 좋은 스파이더 휴리스틱을 만드
는 작업은 언제나 현재진행형이다. 시간이 지남에 따라 새로운 규칙이 만들어지고,
웹에 새로운 종류의 리소스가 추가됨에 따라 적용된다. 좋은 규칙들은 언제나 진화
한다.
더 작고 더 커스터마이징된 크롤러들은, 그들이 어떤 자원(서버, 네트워크 대역
폭 등)에 얼마나 영향을 줄 것인지를 스스로 제어할 수 있거나, 혹은 심지어 그 자
원들 자체가 크롤링을 수행하는 사람의 제어하에 있을 수도 있기 때문에(인트라넷
사이트에서처럼), 이 문제들 중 일부는 피해갈 수 있다. 이 크롤러들은 문제를 예방
하기 위해 사람의 모니터링에 더욱 의존한다.
9.2
로봇의
HTTP