January 2017
Beginner to intermediate
133 pages
4h 29m
Korean

지저분한 데이터 정리하기
이 책에서는 지금까지 어느 정도 정형화된 데이터 소스만 사용했고 정형화되지 않은 데이터에서 생길 수 있는 문제는 무시했습니다. 예상과 다른 데이터는 아예 버렸죠. 하지만 웹 스크레이핑에서는 그렇게 제한된 곳에서만 데이터를 수집할 수는 없을 때가 많습니다.
잘못된 구두점, 일관성 없는 대문자 사용, 줄바꿈, 오타 등 지저분한 데이터는 웹의 큰 문제입니다. 이 장에서는 도구와 테크닉 코드 작성 방법을 바꿔서 데이터 소스에서 문제가 발생하지 않게 막는 방법, 일단 데이터베이스에 들어온 데이터를 정리하는 방법을 소개합니다.
예외를 처리하는 코드도 중요하지만, 예상 못 한 상황에 대응하는 방어적인 코드도 중요합니다.
언어학에서 n-그램은 텍스트나 연설에서 연속으로 나타난 단어 n개를 말합니다. 자연어를 분석할 때는 공통적으로 나타나는 n-그램, 또는 자주 함께 쓰이는 단어 집합으로 나눠서 생각하는 게 편리할 때가 많습니다.
이 섹션에서는 n-그램을 분석하기보다는 우선 정확한 형태를 갖춘 n-그램을 찾는 데 중점을 두겠습니다. 8장에서 2-그램과 3-그램을 써서 텍스트를 요약하고 분석하는 방법을 알아볼 겁니다.
다음 코드는 파이썬 프로그래밍 언어에 관한 위키백과 항목에서 찾은 2 ...