
462
4
부
강화 학습과 자연어 처리
# 문서 불러오기 및 단어 클라우드 생성
d = path.dirname(__name__)
text = open(path.join(d, ‘Finance10k.txt’)).read()
stopwords = set(STOPWORDS)
wc = WordCloud(background_color=”black”, max_words=2000, stopwords=stopwords)
wc.generate(text)
plt.figure(figsize=(16,13)) plt.imshow(wc, interpolation=’bilinear’)
plt.axis(“off”) plt.show()
일반적으로 단어 클라우드는 대출, 부동산,
3
분기, 공정 가치와 같은 반복되는 단어가 더 크
고 눈에 띄게 강조되는데, 이는 주제 모델링의 결과와 일치한다.
위 단계의 정보를 통합해 문서에 표시된 주제 목록을 만들 수 있다. 실전 문제의 문서에서 ‘
3
분기’, ‘처음
9
개월’, ‘
9
개월’과 같은 단어가 자주 등장한 것을 볼 수 있다. 단어 목록에는 대차
대조표
balance
sheet
(
B
/
S
또는 재무 상태표
statement
of
financial
position
) 항목과 관련된 주제가 몇 가
지 있다. 따라서 문서는 해당 분기의 모든 신용 및 자산 가치가 ...