
31
1
장
한눈에 보는 머신러닝
위키백과 문서를 모두 내려받으면 여러분 컴퓨터는 아주 많은 데이터를 갖게 됩니다. 그렇다고
해서 어떤 작업이 갑자기 좋아지는 것은 아닙니다. 그러므로 위키백과 문서를 다운로드하는 것
은 머신러닝이 아닙니다.
1.2
왜 머신러닝을 사용하는가?
전통적인 프로그래밍 기법을 사용해 어떻게 스팸 필터를 만들 수 있을지 생각해봅시다.
1
먼저 스팸에 어떤 단어들이 주로 나타나는지 살펴봅니다. 그러면 ‘
4U
’, ‘신용카드’, ‘무료’, ‘굉장한’ 같은 단어
나 구절이 제목에 많이 나타나는 경향이 있다는 것을 알 수 있습니다. 어쩌면 보낸이의 이름이나 메일 주
소, 본문이나 이메일의 다른 요소에서 다른 패턴을 감지할 수도 있습니다.
2
발견한 각 패턴을 감지하는 알고리즘을 작성하여 프로그램이 이런 패턴을 발견했을 때 그 메일을 스팸으
로 분류하게 합니다.
3
프로그램을 테스트하고 론칭할 만큼 충분한 성능이 나올 때까지
1
단계와
2
단계를 반복합니다.
문제가 어렵기 때문에 규칙이 점점 길고 복잡해지므로 유지 보수하기 매우 힘들어집니다 (그림
1
-
1
).
론칭!
문제 연구 규칙 작성 평가
오차 분석
그림
1-1
전통적인 접근 방법
반면 머신러닝 기법에 기반을 둔 스팸 필터는 일반 메일에 비해 스팸에 자주 나타나는 패턴을 감
지하여 어떤 단어와 구절이 스팸