CHAPTER 6
문서 읽기
인터넷은 주로 텍스트 기반 웹사이트의 집합이며 웹 2.0이 튀어나오면서 멀티미디어 콘텐츠와 섞이긴 했지만 웹 스크레이핑이란 목적에서는 무시해도 좋다고 생각하면 마음이 편할 겁니다. 하지만 이런 생각은 인터넷이 원래 무엇이었는지 무시하는 생각입니다. 인터넷은 원래 콘텐츠를 따지지 않고 파일을 전송하는 수단으로 쓰였었습니다.
인터넷은 1960년대 후반부터 이런저런 형태로 존재하고 있었지만, HTML은 1992년이 되어서야 등장했습니다. 그때까지도 인터넷은 주로 이메일과 파일 전송에만 쓰였고 현재 우리가 아는 웹 페이지라는 개념은 존재하지도 않았습니다. 달리 말하면, 인터넷은 HTML 파일의 모음이 아닙니다. 인터넷은 정보의 집합이며 HTML 파일은 종종 그 프레임 구실을 할 뿐입니다. 텍스트와 PDF, 이미지, 비디오, 이메일, 그 외 수많은 문서 타입을 읽지 못한다면 데이터의 상당 부분을 놓치는 겁니다.
이 장에서는 문서를 다루는 법을 살펴봅니다. 로컬 폴더에 내려받거나 직접 읽고 데이터를 추출하는 것 모두 해당됩니다. 다양한 텍스트 인코딩에 대해서도 배웁니다. 외국어로 된 HTML 페이지도 읽을 수 있게 될 겁니다.
6.1 문서 인코딩
문서 인코딩은 애플리케이션(컴퓨터의 운영체제든, 직접 만든 파이썬 코드이든) ...
Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.