
416
4
부
강화 학습과 자연어 처리
[‘china’, ‘data’, ‘earning’, ‘google’, ‘jumps’, ‘plunge’, ‘price’, ‘stock’, \
‘today’]
(2, 9)
[[0. 0.29017021 0.4078241 0.29017021 0.4078241 0.
0.4078241 0.4078241 0.4078241 ]
[0.57615236 0.40993715 0. 0.40993715 0. 0.57615236
0. 0. 0. ]]
제공된 코드에 있는
9
개 단어의 어휘를 문서에서 학습한다. 각 단어에는 출력 벡터에서 고유한
정수 인덱스를 할당한다. 문장은
9
개 요소를 가진 희소 배열로 인코딩되며 한 어휘 안에서 다
른 단어들과 값이 다른 각 단어의 최종 점수를 검토할 수 있다.
단어 임베딩
단어 임베딩은 조밀한 벡터 표현을 사용해 단어와 문서를 나타낸다. 임베딩에서 단어는 조밀한
벡터로 표현된다. 벡터는 연속 벡터 공간으로의 단어 투영을 나타낸다. 벡터 공간에서 단어의
위치는 텍스트에서 학습되며 단어를 사용할 때 단어를 둘러싼 단어를 기반으로 한다. 학습된
벡터 공간에서 단어의 위치를 임베딩이라고 한다.
텍스트에서 단어 임베딩을 학습하는 모델에는
word2Vec
,
spaCy
의 사전 학습된 단어 임베
딩 모델,
GloVe
가 있다. 이와 ...