January 2017
Beginner to intermediate
133 pages
4h 29m
Korean
고급 스크레이핑
이제 웹 스크레이핑의 기초를 어느 정도 배웠으니 이제부터 재미있는 일을 해볼 수 있습니다. 지금까지 만든 웹 스크레이퍼는 비교적 단순했습니다. 즉시 알아볼 수 있는 형식을 서버에서 제공하지 않으면 정보를 가져올 수 없습니다. 모든 정보를 보이는 그대로 가져오고, 분석은 전혀 하지 않은 채 단순히 저장하기만 했습니다. 폼이나 웹사이트의 상호작용 기능, 심지어 자바스크립트에 의해서도 방해받았습니다. 간단히 말해, 나를 수집해 달라고 간절히 외치는 정보를 가져오는 것 외에는 쓸모가 없는 것이죠.
2부에서는 원형 그대로의 데이터를 분석하는 것 이상의 이야기를 해봅시다. 즉 자바스크립트 계층, 로그인 폼, 기타 스크랩 방해물 뒤에 있는 웹사이트들에 대한 이야기를 알아봅니다.
웹 스크레이퍼를 사용해 사이트를 테스트하고, 작업을 자동화하고, 더 큰 규모로 인터넷을 사용하는 법을 배울 겁니다. 2부가 끝날 때쯤에는 인터넷의 어디에서든, 어떤 형식이든, 어떤 타입의 데이터라도 가져올 수 있는 도구를 갖게 될 겁니다.
07장 지저분한 데이터 정리하기
08장 자연어 읽고 쓰기
09장 폼과 로그인 뚫기
10장 자바스크립트 스크레이핑
11장 이미지 처리와 텍스트 인식
12장 스크레이핑 함정 피하기
13장 스크레이퍼로 웹사이트 테스트하기
14장 원격 스크레이핑