
58
1
부
머신러닝
1.5.4
관련 없는 특성
속담에도 있듯이 엉터리가 들어가면 엉터리가 나옵니다
garbage
in
,
garbage
out
. 훈련 데이터에 관련
없는 특성이 적고 관련 있는 특성이 충분해야 시스템이 학습할 수 있을 것입니다. 성공적인 머신
러닝 프로젝트의 핵심 요소는 훈련에 사용할 좋은 특성들을 찾는 것입니다. 이 과정을
특성 공학
feature
engineering
이라 하며 다음과 같은 작업입니다.
●
특성 선택
feature
selection
: 가지고 있는 특성 중에서 훈련에 가장 유용한 특성을 선택합니다.
●
특성 추출
feature
extraction
: 특성을 결합하여 더 유용한 특성을 만듭니다. 앞서 본 것처럼 차원 축소 알고리
즘이 도움이 될 수 있습니다.
●
새로운 데이터를 수집해 새 특성을 만듭니다.
지금까지 나쁜 데이터의 사례를 살펴보았고 이제 나쁜 알고리즘의 예를 몇 가지 살펴보겠습니다.
1.5.5
훈련 데이터 과대적합
해외여행 중 택시운전사가 내 물건을 훔쳤다고 가정합시다. 아마도 그 나라의
모든
택시운전사
를 도둑이라고 생각할 수도 있습니다. 사람은 종종 과도하게 일반화를 하지만 주의하지 않으면
기계도 똑같은 함정에 빠질 수 있습니다. 머신러닝에서는 이를
과대적합
overfitting
이라고 합니다.
이는 모델이 훈련 데이터에