Skip to Content
스파크를 이용한 자연어 처리 : 대규모 텍스트를 다루는 가장 효율적인 딥러닝을 만나다
book

스파크를 이용한 자연어 처리 : 대규모 텍스트를 다루는 가장 효율적인 딥러닝을 만나다

by 이창현, 앨릭스 토머스
August 2021
Beginner to intermediate content levelBeginner to intermediate
440 pages
10h 4m
Korean
Hanbit Media, Inc.
Content preview from 스파크를 이용한 자연어 처리 : 대규모 텍스트를 다루는 가장 효율적인 딥러닝을 만나다
301
11
단어 임베딩
roof 0.9653381
ceiling 0.96467453
ridge 0.96467185
woods 0.96466273
queen 0.9404894
king-man+woman~queen quantile 0.942
queen
벡터가 다른 단어의
94
%보다 근접하다는 것은 좋은 신호다. 하지만 ‘
ceiling
’과 같은 다
른 상위 결과 중 일부가 너무 근접하다는 것은 데이터셋이 너무 작아서 일반적인 관계를 학습
하기에는 지나치게 특화될 수 있다는 신호다.
마지막으로 [그림
11
-
1
]에 표시된 히스토그램을 살펴보자.
그림
11-1
50
에폭에서 단어 간 유사성 히스토그램
302
2
빌딩 블록
대부분의 유사점은 높은 쪽에 있다. 이것은
50
에폭에서 단어들이 매우 유사하다는 의미다.
이번에는 다음 [그림
11
-
2
]에 표시된 것처럼
100
에폭의 히스토그램을 살펴보자.
그림
11-2
100
에폭에서 단어 간 유사성 히스토그램
히스토그램의 가중치가 중간으로 이동했다. 단어 사이에 더 많은 차이가 있다는 의미다.
이제 [그림
11
-
3
]과 같이
500
에폭을 살펴보자. 히스토그램의 질량이 왼쪽으로 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

클라우드 네이티브: 클라우드 네이티브 애플리케이션을 설계, 개발, 운영하는 핵심 가이드

클라우드 네이티브: 클라우드 네이티브 애플리케이션을 설계, 개발, 운영하는 핵심 가이드

정원천, 보리스 숄, 트렌트 스완슨, 피터 야우쇼베츠

Publisher Resources

ISBN: 9791162244654