
170
3
부
모델 반복
5.3
특성 중요도 평가
모델 성능을 분석하는 다른 방법은 예측을 만드는 데 어떤 특성이 사용되는지 알아보는 것입니
다. 이를 특성 중요도 분석이라고 합니다. 특성 중요도를 평가하면 모델에 도움이 되지 않는 특
성을 제거하거나 반복하는 데 도움이 됩니다. 특성 중요도는 데이터 누수와 같이 의심스러운
예측 성능을 제공하는 특성을 찾을 때도 유용합니다. 모델의 특성 중요도를 간단히 만들 수 있
는 사례와 직접 만들기 어려운 사례도 다루어보겠습니다.
5.3.1
분류기 직접 활용하기
모델이 올바르게 동작하는지 검증하려면 모델이 사용하거나 무시하는 특성을 시각화해보세요.
회귀나 결정 트리처럼 간단한 모델이라면 모델이 학습한 파라미터를 확인하여 간단하게 특성
중요도를 추출할 수 있습니다.
머신러닝 에디터를 위한 첫 번째 모델은 랜덤 포레스트이므로 사이킷런
API
에서 손쉽게 모든
특성의 중요도를 순서대로 얻을 수 있습니다. 특성 중요도를 추출하는 코드와 사용법은 깃허브
저장소
20
의
feature
_
importance
.
ipynb
노트북에 있습니다.
def get_feature_importance(clf, feature_names):
importances = clf.feature_importances_
indices_sorted_by_importance =