Skip to Content
스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로
April 2021
Beginner to intermediate
472 pages
9h 23m
Korean
Hanbit Media, Inc.
Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
431
28
실시간 머신러닝
28.1
나이브 베이즈를 이용한 스트리밍 분류
나이브 베이즈 방법은 모든 특성 쌍 사이의 독립성에 대한 ‘순진한’ 가정과 함께 베이즈의 정리
를 적용하는 것에 근거한 지도학습 알고리즘 셋이다. 이 절에서는 이 기술을 사용하는 자연어 문
서에 대한 분류기를 자세히 살펴보고 언어에 대한 깊은 표현 없이 효율적인 분류기가 어떻게 실
현되는지 설명한다.
다항 나이브 베이즈는 데이터의 다중 클래스 분포를 위해 나이브 베이즈 알고리즘을 구현한다.
텍스트 분류에 사용되는 두 가지 고전적인 나이브 베이즈 변형 중 하나이며 다른 하나는 베르
누이
Bernoulli
모델이다.
다항 나이브 베이즈를 탐색할 때는 데이터가 단어 수 벡터로 표현되는 간단한 표현을 사용한다.
즉, 문서는 단어 주머니
bag
of
words
로 표현되며, 여기서 주머니
bag
는 반복되는 요소를 허용하고
문서에 나타나는 단어와 단어 발생 횟수만 반영하고 단어 순서를 버린다.
이 문서들의 모음을
D
라고 했을 때 그 클래스는
C
에 의해 주어진다.
C
는 분류에서 다른 클래스
를 나타낸다. 예를 들어 이메일 스팸 필터링의 전형적인 경우
C
에 대한 두 가지 클래스가 있다.
S
(스팸)
H
(햄, 또는 스팸 아님 )
D
를 가장 높은 사후 확률
posterior
probability
)
|
(
D
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

Publisher Resources

ISBN: 9791162243961