271
Chapter 7 -
자연어 처리와 금융 인공지능: 벡터화와 시계열 분석
상관없다 ). 이렇게 보면 이젠 더 이상 지나치게 크지 않고 말뭉치에서 단어의 발생 빈도와 더
일치하는 것처럼 표현된다.
단어 수를 다룰 때 로그 함수를 사용해야 하는 것은 지프의 법칙
Zipf
’
s
law
에 의해 더욱 강조된다.
지프의 법칙에 따르면 자연어 말뭉치의 단어 수는 자연적으로 거듭제곱 법칙을 따르기 때문에
로그 함수를 사용하여 단어 빈도수의 차이를 선형 스케일로 변환하는 것이 가장 좋다. 이어서
이 법칙을 좀 더 자세히 살펴보자.
7.4
단어 수에 관한 지프의 법칙
지프의 법칙은 자연어의 단어 수와 관련 있다. 매우 흥미롭고 놀랍기 때문에 필자의 책에서도
적용되는지 확인하고 싶을 정도다. 필자는 이 책의 한 단어 한 단어를 쓰면서 각 단어의 개수가
실제로 어떠한 법칙을 따르고 있다고 상상하기 어렵다. 우리의 아이디어와 생각을 표현하는 방
식이 정말로 예측 가능한 것일까? 지프의 법칙은 문서와 말뭉치의 단어뿐만 아니라 우리 주변
의 많은 것을 세는 데까지 확장된다.
지프의 법칙은 다음과 같다. 자연어 말뭉치에서 단어의 빈도에 따라 정렬될 경우 첫 번째 단어
의 빈도는 두 번째 단어의 빈도보다 두 배, 세 번째 항목의 빈도보다 세 배이다. 즉, 말뭉치에서
단어가 나타나는 빈도는 그 순위와 연관이 있다.
지프의 법칙이 적용되는지 확인하려면 단어의 빈도와 순위를 각각 그래프로 표시하고 지수 법
칙을 확인하면 된다.
r