93
4
장
초기 데이터셋 준비하기
4.1.1
데이터 과학 수행하기
머신러닝 제품을 개발할 때 데이터 준비 과정이 걸림돌이 되는 것을 셀 수 없을 만큼 많이 보았
습니다. 상대적으로 이 주제에 대한 교육이 부족하기 때문입니다 (대부분의 온라인 코스는 데
이터셋을 제공하고 모델에 초점을 맞춥니다). 이로 인해 많은 기술자들이 이 작업을 두려워합
니다.
데이터 작업을 재미있는 모델링을 하기 전에 수행해야 하는 따분한 일이라 생각하기 쉽습니다.
하지만 모델은 데이터에서 트렌드와 패턴을 추출하는 방법을 제공할 뿐입니다. 사용할 데이터
가 모델이 예측하기 충분한 패턴을 담고 있는지 확인해야 합니다 (그리고 두드러진 편향이 내
재되어 있는지 체크해야 합니다 ). 이것이 데이터 과학의 핵심 작업입니다(사실 모델 과학자라
고 부르지 않고 데이터 과학자라고 부르는 것을 보면 알 수 있습니다 ).
이 장은 데이터를 수집하고 머신러닝에 적용할 수 있는지 조사하고 검증하는 과정에 초점을 맞
춥니다. 데이터 품질을 판단하기 위해 먼저 데이터셋 탐색을 수행해보죠.
4.2
첫 번째 데이터셋 탐색하기
그렇다면 초기 데이터셋을 어떻게 탐색할까요? 물론 첫 번째 단계는 데이터셋을 모으는 것입
니다. 이 과정에서 기술자들이 완벽한 데이터셋을 찾으려 하기 때문에 막히는 것을 자주 봅니
다. 기억하세요. 예비 결과를 만들 수 있는 간단한 데이터셋을 구하는 것이 목표입니다. 머신러
닝의 다른 부분과 마찬가지로 간단하게 시작해서 발전시켜야 합니다.
4.2.1
효율적으로 작게 시작하기
대부분의 머신러닝 ...