279
Chapter 7 -
자연어 처리와 금융 인공지능: 벡터화와 시계열 분석
●
여기서는 정규화된
TF
-
IDF
벡터가 아니라 원시적인 단어 수로 시작하기 때문에 맥락을 이해하기 위한 단
어의 순서는 없다. 그 대신 단어 분포를 모델에 명시적으로 통합시키고 여전히 각 문서에 대한 단어 통계 모
델링에 의존하게 된다.
●
문서는 임의의 수로 이루어진 토픽의 선형 결합이다. 이 임의의 수를 미리 지정하여 문서의 토큰을 이 토픽
수에 할당하게 된다.
●
각 토픽은 단어의 빈도에 따라 특정 단어 분포로 나타낼 수 있다.
●
문서에서 특정 토픽이 발생할 확률은 디리클레 확률 분포를 따른다.
●
특정 단어가 해당 토픽에 할당될 확률도 디리클레 확률 분포를 따른다.
결과적으로 디리클레 할당을 사용하여 얻은 토픽 벡터는 희소하다. 이는 토픽이 포함하는 단어
의 측면에서 토픽들을 깔끔하게 구분할 수 있다는 것을 의미하며 각각의 토픽을 설명 가능하게
만든다.
디리클레 할당을 사용하면 함께 자주 발생하는 단어가 동일한 토픽에 할당된다. 따라서 이 방
법은 차원이 낮은 토픽 공간으로 이동할 때 가까운 토큰을 계속해서 가깝게 유지한다. 반면에
잠재 의미 분석은 차원이 낮은 토픽 공간으로 이동할 때 서로 떨어져 있는 토큰을 계속해서 떨
어져 있게 유지하므로 차원이 낮은 공간으로 이동하면서도 클래스 간의 구분이 유지되는 분류
문제에 더 적합하다.
7.5.5
잠재 판별 분석에 의해 결정된 문서의 토픽 벡터 표현
잠재 판별 분석
latent
discriminant
analysis ...