CHAPTER 2

고급 HTML 분석

미켈란젤로는 다비드상 같은 걸작을 어떻게 만들었는지 질문을 받았을 때 이런 명언을 남겼습니다. “쉽습니다. 돌에서 다비드처럼 보이지 않는 부분을 깎아내기만 하면 됩니다.”

웹 스크레이핑이 조각과 비슷한 부분은 별로 없지만, 복잡한 웹 페이지에서 필요한 정보를 얻어낸다는 점에서는 미켈란젤로와 비슷한 방식을 따라야 합니다. 원하지 않는 콘텐츠를 깎아내서 필요한 정보를 얻는 방법은 여러 가지가 있습니다. 이 장에서는 복잡한 HTML 페이지를 분석해서 원하는 정보만 추출하는 방법을 알아보겠습니다.

2.1 닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다

복잡한 태그를 만나면 당장 달려들어 여러 줄의 코드를 써서라도 필요한 정보를 추출하고 싶은 생각이 들 겁니다. 하지만 이 장에서 소개하는 테크닉을 부주의하게 사용한다면 코드는 디버그하기 어려워지거나, 취약해지거나, 혹은 둘 다가 될 수도 있습니다. 시작하기 전에, 고급 HTML 분석을 쓰지 않아도 필요한 결과를 얻을 수 있는 방법을 몇 가지 알아봅시다.

당신이 원하는 콘텐츠가 있습니다. 그 콘텐츠는 이름일 수도, 통계 자료일 수도, 텍스트 블록일 수도 있겠죠. 그리고 그 콘텐츠는 20단계나 되는 HTML 덩어리 속에, 단서가 될 만한 태그나 속성 하나 없이 파묻혀 ...

Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.