Skip to Content
AI를 위한 필수 수학
book

AI를 위한 필수 수학

by 할라 넬슨, 안민재
August 2024
Beginner to intermediate
640 pages
14h 53m
Korean
Hanbit Media, Inc.
Content preview from AI를 위한 필수 수학
271
Chapter 7 -
자연어 처리와 금융 인공지능: 벡터화와 시계열 분석
상관없다 ). 이렇게 보면 이젠 더 이상 지나치게 크지 않고 말뭉치에서 단어의 발생 빈도와 더
일치하는 것처럼 표현된다.
단어 수를 다룰 때 로그 함수를 사용해야 하는 것은 지프의 법칙
Zipf
s
law
에 의해 더욱 강조된다.
지프의 법칙에 따르면 자연어 말뭉치의 단어 수는 자연적으로 거듭제곱 법칙을 따르기 때문에
로그 함수를 사용하여 단어 빈도수의 차이를 선형 스케일로 변환하는 것이 가장 좋다. 이어서
이 법칙을 좀 더 자세히 살펴보자.
7.4
단어 수에 관한 지프의 법칙
지프의 법칙은 자연어의 단어 수와 관련 있다. 매우 흥미롭고 놀랍기 때문에 필자의 책에서도
적용되는지 확인하고 싶을 정도다. 필자는 이 책의 한 단어 한 단어를 쓰면서 각 단어의 개수가
실제로 어떠한 법칙을 따르고 있다고 상상하기 어렵다. 우리의 아이디어와 생각을 표현하는 방
식이 정말로 예측 가능한 것일까? 지프의 법칙은 문서와 말뭉치의 단어뿐만 아니라 우리 주변
의 많은 것을 세는 데까지 확장된다.
지프의 법칙은 다음과 같다. 자연어 말뭉치에서 단어의 빈도에 따라 정렬될 경우 첫 번째 단어
의 빈도는 두 번째 단어의 빈도보다 두 배, 세 번째 항목의 빈도보다 세 배이다. 즉, 말뭉치에서
단어가 나타나는 빈도는 그 순위와 연관이 있다.
f 23
312
g===ff
지프의 법칙이 적용되는지 확인하려면 단어의 빈도와 순위를 각각 그래프로 표시하고 지수 법
칙을 확인하면 된다.
f f r fr
r
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

개발자를 위한 필수 수학

개발자를 위한 필수 수학

토머스 닐드

Publisher Resources

ISBN: 9791169212588