
241
7
장
앙상블 학습과 랜덤 포레스트
무작위로 선택된 수천 명의 사람에게 복잡한 질문을 하고 대답을 모은다고 가정합시다. 많은 경
우 이렇게 모은 답이 전문가의 답보다 낫습니다. 이를 대중의 지혜
wisdom
of
the
crowd
라고 합니다.
이와 비슷하게 일련의 예측기 (즉, 분류나 회귀 모델 )로부터 예측을 수집하면 가장 좋은 모델
하나보다 더 좋은 예측을 얻을 수 있을 것입니다. 일련의 예측기를 앙상블이라고 부르기 때문에
이를 앙상블 학습
Ensemble
Learning
이라고 하며, 앙상블 학습 알고리즘을 앙상블 방법
Ensemble
method
이라고 합니다.
예를 들어 훈련 세트로부터 무작위로 각기 다른 서브셋을 만들어 일련의 결정 트리 분류기를
훈련시킬 수 있습니다. 예측을 하려면 모든 개별 트리의 예측을 구하면 됩니다. 그런 다음 가장
많은 선택을 받은 클래스를 예측으로 삼습니다(
6
장의 마지막 연습문제를 참조하세요 ). 결정 트
리의 앙상블을 랜덤 포레스트
Random
Forest
라고 합니다. 간단한 방법임에도 랜덤 포레스트는 오
늘날 가장 강력한 머신러닝 알고리즘 중 하나입니다.
게다가 (
2
장에서 언급한 것처럼 ) 프로젝트의 마지막에 다다르면 흔히 앙상블 방법을 사용하여
이미 만든 여러 괜찮은 예측기를 연결하여 더 좋은 예측기를 만듭니다. 사실 ...