CHAPTER 7

지저분한 데이터 정리하기

이 책에서는 지금까지 어느 정도 정형화된 데이터 소스만 사용했고 정형화되지 않은 데이터에서 생길 수 있는 문제는 무시했습니다. 예상과 다른 데이터는 아예 버렸죠. 하지만 웹 스크레이핑에서는 그렇게 제한된 곳에서만 데이터를 수집할 수는 없을 때가 많습니다.

잘못된 구두점, 일관성 없는 대문자 사용, 줄바꿈, 오타 등 지저분한 데이터는 웹의 큰 문제입니다. 이 장에서는 도구와 테크닉 코드 작성 방법을 바꿔서 데이터 소스에서 문제가 발생하지 않게 막는 방법, 일단 데이터베이스에 들어온 데이터를 정리하는 방법을 소개합니다.

7.1 코드로 정리하기

예외를 처리하는 코드도 중요하지만, 예상 못 한 상황에 대응하는 방어적인 코드도 중요합니다.

언어학에서 n-그램은 텍스트나 연설에서 연속으로 나타난 단어 n개를 말합니다. 자연어를 분석할 때는 공통적으로 나타나는 n-그램, 또는 자주 함께 쓰이는 단어 집합으로 나눠서 생각하는 게 편리할 때가 많습니다.

이 섹션에서는 n-그램을 분석하기보다는 우선 정확한 형태를 갖춘 n-그램을 찾는 데 중점을 두겠습니다. 8장에서 2-그램과 3-그램을 써서 텍스트를 요약하고 분석하는 방법을 알아볼 겁니다.

다음 코드는 파이썬 프로그래밍 언어에 관한 위키백과 항목에서 찾은 2 ...

Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.