
249
6
장
통계적 머신러닝
트리 모델이란 쉽게 말해
if
-
then
-
else
규칙의 집합체라고 할 수 있다. 따라서 이해하기도 쉽
고 구현하기도 쉽다. 회귀나 로지스틱 회귀와 반대로 트리는 데이터에 존재하는 복잡한 상호
관계에 따른 숨겨진 패턴들을 발견하는 능력이 있다. 게다가
KNN
이나 나이브 베이즈 모델과
달리, 예측변수들 사이의 관계로 단순 트리 모델을 표시할 수 있고 쉽게 해석이 가능하다.
CAUTION
_
운용과학에서의 의사 결정 트리
인간의 의사 결정 과정에 대해 연구하는 의사 결정 과학이나 운용과학 분야에서, 의사 결정 트리라는 용어는
다른 의미를 갖는다. 이 분야에서는, 분기 다이어그램에 나타난 결정 지점, 가능한 결과와 예상 확률 등이 주
어진 상태에서, 최대 기댓값을 갖는 의사 결정 경로를 선택하는 것을 의미한다.
6.2.1
간단한 예제
트리 모델을 얻기 위해 주로 사용되는
R
패키지로는
rpart
와
tree
가 있다.
rpart
패키지
를 이용해,
3
,
000
개의 대출 데이터에 적합한 트리 모델을 다음과 같이 만들어보자. 여기서는
payment
_
inc
_
ratio
와
borrower
_
score
두 변수를 고려한다 (이 데이터에 대한 상세한 내용은
6
.
1
절을 참고하자 ).
library(rpart)
loan_tree <- rpart(outcome ~