Skip to Content
AI를 위한 필수 수학
book

AI를 위한 필수 수학

by 할라 넬슨, 안민재
August 2024
Beginner to intermediate
640 pages
14h 53m
Korean
Hanbit Media, Inc.
Content preview from AI를 위한 필수 수학
279
Chapter 7 -
자연어 처리와 금융 인공지능: 벡터화와 시계열 분석
여기서는 정규화된
TF
-
IDF
벡터가 아니라 원시적인 단어 수로 시작하기 때문에 맥락을 이해하기 위한 단
어의 순서는 없다. 그 대신 단어 분포를 모델에 명시적으로 통합시키고 여전히 각 문서에 대한 단어 통계 모
델링에 의존하게 된다.
문서는 임의의 수로 이루어진 토픽의 선형 결합이다. 이 임의의 수를 미리 지정하여 문서의 토큰을 이 토픽
수에 할당하게 된다.
각 토픽은 단어의 빈도에 따라 특정 단어 분포로 나타낼 수 있다.
문서에서 특정 토픽이 발생할 확률은 디리클레 확률 분포를 따른다.
특정 단어가 해당 토픽에 할당될 확률도 디리클레 확률 분포를 따른다.
결과적으로 디리클레 할당을 사용하여 얻은 토픽 벡터는 희소하다. 이는 토픽이 포함하는 단어
의 측면에서 토픽들을 깔끔하게 구분할 수 있다는 것을 의미하며 각각의 토픽을 설명 가능하게
만든다.
디리클레 할당을 사용하면 함께 자주 발생하는 단어가 동일한 토픽에 할당된다. 따라서 이 방
법은 차원이 낮은 토픽 공간으로 이동할 때 가까운 토큰을 계속해서 가깝게 유지한다. 반면에
잠재 의미 분석은 차원이 낮은 토픽 공간으로 이동할 때 서로 떨어져 있는 토큰을 계속해서 떨
어져 있게 유지하므로 차원이 낮은 공간으로 이동하면서도 클래스 간의 구분이 유지되는 분류
문제에 더 적합하다.
7.5.5
잠재 판별 분석에 의해 결정된 문서의 토픽 벡터 표현
잠재 판별 분석
latent
discriminant
analysis ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

개발자를 위한 필수 수학

개발자를 위한 필수 수학

토머스 닐드

Publisher Resources

ISBN: 9791169212588