53
1
장
한눈에 보는 머신러닝
모든 게 다 잘되면 모델은 좋은 예측을 내놓을 것입니다. 아니면 더 많은 특성 (고용률, 건강, 대
기오염 등 )을 사용하거나, 좋은 훈련 데이터를 더 많이 모으거나, 더 강력한 모델 (예를 들면 다
항 회귀 모델 )을 선택해야 할지 모릅니다.
지금까지의 작업을 요약해보겠습니다.
●
데이터를 분석합니다.
●
모델을 선택합니다.
●
훈련 데이터로 모델을 훈련시킵니다 (즉, 학습 알고리즘이 비용 함수를 최소화하는 모델 파라미터를 찾습
니다 ).
●
마지막으로 새로운 데이터에 모델을 적용해 예측을 하고 (이를
추론
inference
이라고 합니다), 이 모델이 잘
일반화되길 기대합니다.
이것이 전형적인 머신러닝 프로젝트의 형태입니다.
2
장에서 완전한 프로젝트를 진행하면서 직
접 경험해볼 것입니다.
지금까지 많은 부분을 다뤘습니다. 머신러닝이 무엇인지, 왜 유용한지, 머신러닝 시스템의 가장
일반적인 분류는 무엇인지, 그리고 전형적인 머신러닝 프로젝트의 작업 흐름이 어떤지 배웠습니
다. 다음 절에서는 학습 과정에서 발생할 수 있는 문제와 정확한 예측을 방해하는 것들에 대해
알아보겠습니다.
1.5
머신러닝의 주요 도전 과제
간단하게 말해 우리의 주요 작업은 학습 알고리즘을 선택해서 어떤 데이터에 훈련시키는 것이므
로 문제가 될 수 있는 두 가지는 ‘나쁜 알고리즘’과 ‘나쁜 데이터’입니다. 이 절에서는 이 두 가지
에 대해 알아봅니다. 나쁜 데이터의 사례부터 알아보겠습니다.
1.5.1
충분하지 않은 양의 훈련 데이터
어린아이에게 ...