나이브 베이즈 방법은 모든 특성 쌍 사이의 독립성에 대한 ‘순진한’ 가정과 함께 베이즈의 정리
를 적용하는 것에 근거한 지도학습 알고리즘 셋이다. 이 절에서는 이 기술을 사용하는 자연어 문
서에 대한 분류기를 자세히 살펴보고 언어에 대한 깊은 표현 없이 효율적인 분류기가 어떻게 실
현되는지 설명한다.
다항 나이브 베이즈는 데이터의 다중 클래스 분포를 위해 나이브 베이즈 알고리즘을 구현한다.
텍스트 분류에 사용되는 두 가지 고전적인 나이브 베이즈 변형 중 하나이며 다른 하나는 베르
누이
Bernoulli
모델이다.
다항 나이브 베이즈를 탐색할 때는 데이터가 단어 수 벡터로 표현되는 간단한 표현을 사용한다.
즉, 문서는 단어 주머니
bag
of
words
로 표현되며, 여기서 주머니
bag
는 반복되는 요소를 허용하고
문서에 나타나는 단어와 단어 발생 횟수만 반영하고 단어 순서를 버린다.
이 문서들의 모음을
D
라고 했을 때 그 클래스는
C
에 의해 주어진다.
C
는 분류에서 다른 클래스
를 나타낸다. 예를 들어 이메일 스팸 필터링의 전형적인 경우
C
에 대한 두 가지 클래스가 있다.
●
S
(스팸)
●
H
(햄, 또는 스팸 아님)
D
를 가장 높은 사후 확률
posterior
probability
)
|
(
D
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.