‘마리 퀴리 - 과학 + 음악’을 나타내는 단어 벡터들에 대해 간단히 산술 연산만 수행하면 된다.
다음 문단은 『
Natural
Language
Processing
in
Action
』(
Manning
,
2019
)
162
에서 발췌한
내용을 번역한 것으로, 색인 생성 및 의미 검색에 관한 내용이다.
기존의 색인 방법은 이진 단어 발생 벡터
binary
word
occurrence
vector
, 불연속 벡터(
Bag
of
Words
벡터), 희소 부
동 소수점 벡터(
TF
-
IDF
벡터), 저차원 부동 소수점 벡터(
3
차원 지리 그래픽 정보 시스템 데이터 등)로 작
동한다. 반면에 잠재 의미 분석이나 잠재 디리클레 할당의 토픽 벡터와 같은 고차원 부동 벡터를 적용하는 것
은 매우 어려운 작업이다. 이산 벡터나 이진 벡터에 대해 역색인이 작동하는 이유는 색인이
0
이 아닌 각 이산
차원에 대한 항목만 유지하면 되기 때문이다. 각 차원의 값은 참조된 벡터나 문서에 따라 값이 있을 수도 있고
없을 수도 있다.
TF
-
IDF
벡터의 경우 대부분 그 값이
0
으로 희소하기 때문에 대부분의 문서와 각 차원에 대
해 색인이 필요하지 않다. 반면에 잠재 의미 분석과 잠재 디리클레 할당은
0
이 거의 없는 고차원이고 연속적
이며 밀집된
dense
토픽 벡터를 생성한다. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.