book

파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법

by 한선용, 라이언 미첼

January 2017

Beginner to intermediate

133 pages

4h 29m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.1 연결1.2 BeautifulSoup 소개1.2.1 BeautifulSoup 설치1.2.2 BeautifulSoup 실행1.2.3 신뢰할 수 있는 연결
2.1 닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다2.2 다시 BeautifulSoup2.2.1 find()와 findAll()2.2.2 기타 BeautifulSoup 객체2.2.3 트리 이동2.3 정규 표현식2.4 정규 표현식과 BeautifulSoup2.5 속성에 접근하기2.6 람다 표현식2.7 BeautifulSoup를 넘어
3.1 단일 도메인 내의 이동3.2 전체 사이트 크롤링3.2.1 전체 사이트에서 데이터 수집3.3 인터넷 크롤링3.4 스크래파이를 사용한 크롤링
4.1 API는 어떻게 동작하는가4.2 공통 표기법4.2.1 메서드4.2.2 인증4.3 응답4.3.1 API 호출4.4 에코 네스트4.4.1 몇 가지 예제4.5 트위터4.5.1 시작하기4.5.2 몇 가지 예제4.6 구글 API4.6.1 시작하기4.6.2 몇 가지 예제4.7 JSON 파싱4.8 모든 것을 하나로4.9 마치며
5.1 미디어 파일5.2 데이터를 CSV로 저장5.3 MySQL5.3.1 MySQL 설치5.3.2 기본 명령어5.3.3 파이썬과의 통합5.3.4 데이터베이스 테크닉과 모범 사례5.3.5 여섯 다리와 MySQL5.4 이메일

6.1 문서 인코딩6.2 텍스트6.2.1 텍스트 인코딩과 인터넷6.3 CSV6.3.1 CSV 파일 읽기6.4 PDF6.5 마이크로소프트 워드와 .docx
7.1 코드로 정리하기7.1.1 데이터 정규화7.2 사후 정리7.2.1 오픈리파인
8.1 데이터 요약8.2 마르코프 모델8.2.1 위키백과의 여섯 다리: 결론8.3 자연어 툴킷8.3.1 설치8.3.2 NLTK를 사용한 통계적 분석8.3.3 NLTK를 사용한 사전적 분석8.4 추가 자료
9.1 파이썬 requests 라이브러리9.2 기본적인 폼 전송9.3 라디오 버튼, 체크박스, 기타 필드9.4 파일과 이미지 전송9.5 로그인과 쿠키 처리9.5.1 HTTP 기본 접근 인증9.6 기타 폼 문제
10.1 자바스크립트에 관한 간단한 소개10.1.1 널리 쓰이는 자바스크립트 라이브러리10.2 Ajax와 동적 HTML10.2.1 셀레니움으로 파이썬에서 자바스크립트 실행10.3 리다이렉트 처리
11.1 라이브러리 개관11.1.1 필로11.1.2 테서랙트11.1.3 넘파이11.2 형식이 일정한 텍스트 처리11.2.1 웹사이트 이미지에서 텍스트 스크레이핑하기11.3 CAPTCHA 읽기와 테서랙트 훈련11.3.1 테서랙트 훈련11.4 CAPTCHA 가져오기와 답 보내기
12.1 스크레이핑의 윤리에 관해12.2 사람처럼 보이기12.2.1 헤더를 수정하십시오12.2.2 쿠키 처리12.2.3 타이밍이 가장 중요합니다12.3 널리 쓰이는 폼 보안 기능12.3.1 숨긴 필드 값12.3.2 허니팟 피하기12.4 사람처럼 보이기 위한 체크리스트
13.1 테스트 입문13.1.1 단위 테스트란?13.2 파이썬 unittest13.2.1 위키백과 테스트13.3 셀레니움을 사용한 테스트13.3.1 사이트 조작13.4 unittest vs 셀레니움
14.1 원격 서버를 쓰는 이유14.1.1 IP 주소 차단 방지14.1.2 이동성과 확장성14.2 토르14.2.1 파이삭스14.3 원격 호스팅14.3.1 웹사이트 호스팅 계정에서 실행14.3.2 클라우드에서 실행14.4 추가 자료14.5 미래를 향해
A.1 설치와 ‘Hello, World!’
C.1 상표? 저작권? 특허?C.1.1 저작권법C.2 동산 침해C.3 컴퓨터 사기와 악용에 관한 법률C.4 robots.txt와 이용 약관C.5 세 가지 웹 스크레이퍼 사례C.5.1 이베이 vs. 비더스 에지: 동산 침해C.5.2 미국 vs. 오언하이머: 컴퓨터 사기와 악용에 관한 법률C.5.3 필드 vs. 구글: 저작권과 robots.txt

Content preview from 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법

Part II

고급 스크레이핑

이제 웹 스크레이핑의 기초를 어느 정도 배웠으니 이제부터 재미있는 일을 해볼 수 있습니다. 지금까지 만든 웹 스크레이퍼는 비교적 단순했습니다. 즉시 알아볼 수 있는 형식을 서버에서 제공하지 않으면 정보를 가져올 수 없습니다. 모든 정보를 보이는 그대로 가져오고, 분석은 전혀 하지 않은 채 단순히 저장하기만 했습니다. 폼이나 웹사이트의 상호작용 기능, 심지어 자바스크립트에 의해서도 방해받았습니다. 간단히 말해, 나를 수집해 달라고 간절히 외치는 정보를 가져오는 것 외에는 쓸모가 없는 것이죠.

2부에서는 원형 그대로의 데이터를 분석하는 것 이상의 이야기를 해봅시다. 즉 자바스크립트 계층, 로그인 폼, 기타 스크랩 방해물 뒤에 있는 웹사이트들에 대한 이야기를 알아봅니다.

웹 스크레이퍼를 사용해 사이트를 테스트하고, 작업을 자동화하고, 더 큰 규모로 인터넷을 사용하는 법을 배울 겁니다. 2부가 끝날 때쯤에는 인터넷의 어디에서든, 어떤 형식이든, 어떤 타입의 데이터라도 가져올 수 있는 도구를 갖게 될 겁니다.

07장 지저분한 데이터 정리하기

08장 자연어 읽고 쓰기

09장 폼과 로그인 뚫기

10장 자바스크립트 스크레이핑

11장 이미지 처리와 텍스트 인식

12장 스크레이핑 함정 피하기

13장 스크레이퍼로 웹사이트 테스트하기

14장 원격 스크레이핑

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

만들면서 배우는 프로그레시브 웹 앱: 사용자 경험을 극대화하는 차세대 웹 앱 기술

Publisher Resources

ISBN: 9788968484698

파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법

by 한선용, 라이언 미첼

Part II

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

만들면서 배우는 프로그레시브 웹 앱: 사용자 경험을 극대화하는 차세대 웹 앱 기술

컨테이너 보안: 컨테이너화된 응용 프로그램의 보안을 위한 개념, 이론, 대응법과 모범 관행까지

처음 시작하는 파이썬: 파이썬 패키지를 활용한 모던 컴퓨팅 입문

웹 애플리케이션 보안: 정찰, 공격, 방어 세 단계로 배우는 웹 애플리케이션 보안의 모든 것

Publisher Resources

Part II

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

만들면서 배우는 프로그레시브 웹 앱: 사용자 경험을 극대화하는 차세대 웹 앱 기술

컨테이너 보안: 컨테이너화된 응용 프로그램의 보안을 위한 개념, 이론, 대응법과 모범 관행까지

처음 시작하는 파이썬: 파이썬 패키지를 활용한 모던 컴퓨팅 입문

웹 애플리케이션 보안: 정찰, 공격, 방어 세 단계로 배우는 웹 애플리케이션 보안의 모든 것

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.