델은 이메일의 내용을 완전히 무시하고 기존의 레이블을 외워버린 것입니다. 이런 예는 명백한
데이터 누수이며 특성 중요도를 확인해야만 찾을 수 있습니다.
5.4
마치며
이 장의 서두에서 지금까지 배운 모든 것을 바탕으로 초기 모델을 결정하는 기준을 다루었습니
다. 그다음 데이터를 여러 개의 하위 세트로 분할해야 하는 중요성과 데이터 누수를 피하기 위
한 방법을 설명했습니다.
초기 모델을 훈련한 후에 모델의 예측과 데이터를 비교하고 대조하는 여러 가지 방법을 찾아
모델이 얼마나 잘 동작하는지 분석했습니다. 마지막으로 특성 중요도를 출력하거나 블랙박스
설명 도구를 사용해 모델 자체를 조사함으로써 모델이 예측에 사용한 특성에 대한 직관을 얻었
습니다.
이제 모델 향상에 관한 직관을 얻었을 것입니다. 이 과정에서 드러난 문제를 해결하기 위해 머
신러닝 파이프라인을 디버깅하고 수정하는 방법을
6
장에서 자세히 알아보겠습니다.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.