CHAPTER 5
데이터 저장
터미널에 출력하는 것도 흥미롭긴 하지만, 데이터 수집과 분석이라는 관점에서는 크게 유용하지는 않습니다. 웹 스크레이퍼를 유용하게 활용하려면 스크랩한 정보를 저장할 수 있어야 합니다.
이 장에서는 세 가지 데이터 관리 방법을 알아볼 겁니다. 상상할 수 있는 모든 애플리케이션에서 이 세 가지면 충분합니다. 스크랩한 데이터를 웹사이트에 사용하거나, 직접 API를 만들 생각인가요? 그렇다면 데이터베이스가 필요합니다. 인터넷에서 문서를 수집해 하드디스크에 저장할 쉽고 빠른 방법을 찾고 있나요? 파일 스트림이 해결책입니다. 주기적 알림을 받거나, 하루에 한 번 데이터를 집계하려 하나요? 스스로에게 이메일을 보내세요.
꼭 웹 스크레이핑이 아니더라도, 최신 애플리케이션에는 대량의 데이터를 저장하고 조작하는 능력이 반드시 필요합니다. 사실 이 장에서 설명하는 내용은 이후 이 책에서 사용하는 예제 대부분에 필요합니다. 자동화된 데이터 스토리지에 익숙지 않다면 이 장을 최소한 훑어보기라도 할 것을 강력히 권합니다.
5.1 미디어 파일
미디어 파일을 저장하는 방법은 크게 두 가지입니다. 하나는 참조를 저장하는 것이고, 다른 하나는 파일 자체를 내려받는 겁니다. 파일 참조 저장은 간단합니다. 파일이 위치한 URL을 저장하기만 하면 ...
Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.