CHAPTER 3
크롤링 시작하기
여태까지 이 책에서 사용한 예제는 정적 페이지 하나만 분석하는 예제였고, 다소 인위적으로 만든 예제였습니다. 이 장에서는 여러 페이지, 여러 사이트를 이동하는 스크레이퍼를 통해 실제 문제를 살펴보겠습니다.
웹 크롤러라는 이름은 웹을 크롤링하기 때문에 붙은 이름입니다. 그 핵심은 재귀입니다. 웹 크롤러는 URL에서 페이지를 가져오고, 그 페이지를 검사해 다른 URL을 찾고, 다시 그 페이지를 가져오는 작업을 무한히 반복합니다.
하지만 조심하십시오. 웹 크롤링이 가능하다는 것과 웹 크롤링을 해야 한다는 것은 다른 이야기입니다. 이전 예제에서 사용한 스크레이퍼는 모든 데이터가 페이지 하나에 들어 있는 상황에는 잘 동작합니다. 웹 크롤러를 사용할 때는 반드시 대역폭에 세심한 주의를 기울여야 하며, 타깃 서버의 부하를 줄일 방법을 강구해야 합니다.
3.1 단일 도메인 내의 이동
‘위키백과의 여섯 다리’에 대해서는 못 들어봤더라도, 아마 ‘케빈 베이컨의 여섯 다리’에 대해서는 들어봤을 겁니다. 두 게임 모두 목표는 관계가 없어 보이는 두 대상을 연결하는 겁니다. 위키백과의 경우는 링크로 연결된 항목, 케빈 베이컨의 경우는 같은 영화에 등장한 배우라는 조건으로, 총 여섯 단계(시작과 목표를 포함) 안에 찾는 거죠. ...
Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.