CHAPTER 1
첫 번째 웹 스크레이퍼
일단 웹 스크레이핑을 시작하면 브라우저가 우리를 위해 얼마나 많은 일을 하고 있었는지 새삼 감탄하게 될 겁니다. HTML 구조, CSS 스타일, 자바스크립트 실행, 이미지 렌더링을 거치지 않은 웹을 처음 보면 좀 겁이 날 수도 있지만, 이 장과 다음 장에서는 브라우저의 도움 없이 데이터 구조를 파악하고 해석하는 법을 배울 겁니다.
이 장에서는 웹 서버에 특정 페이지를 요청하는 GET 요청을 보내고, 그 페이지의 HTML 결과를 얻고, 우리가 원하는 콘텐츠를 뽑아내는 단순한 데이터 추출의 기본을 배웁니다.
1.1 연결
네트워크나 네트워크 보안을 공부하지 않았다면 인터넷이 움직이는 방식이 좀 어려워 보일 수도 있습니다. 브라우저를 열고 http://google.com에 들어갈 때마다 네트워크에서 정확히 무슨 일이 일어나는지 생각하고 싶은 사람은 없고, 최근에는 그럴 필요도 없습니다. 사실 필자는 컴퓨터 인터페이스가 진화해서 인터넷을 사용하는 사람들 대부분이 인터넷이 어떻게 동작하는지 대충이라도 생각할 필요가 없게 된 게 아주 잘된 일이라고 생각합니다.
하지만 웹 스크레이핑은 이런 편리한 인터페이스를 브라우저 수준(HTML, CSS, 자바스크립트를 해석하는 방법)에서 없애야 할 뿐 아니라, 가끔은 네트워크 ...
Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.