
188
머신러닝 시스템 설계
종료 날짜를 각각 사용하면 근속 기간에 대해 많은 정보를 얻을 수 없지만 두 날짜를 함께 사용
하면 근속 기간에 대한 정보를 얻게 됩니다.
피처 또는 피처 집합이 모델에 얼마나 중요한지 측정하려면 절제 연구를 수행합시다. 피처 제
거 시 모델 성능이 크게 저하된다면 해당 피처가 왜 중요한지를 조사합니다. 피처가 수천 개에
달할 정도로 방대하다면 가능한 조합에 모두 절제 연구를 수행하기는 불가능하지만, 가장 의심
되는 피처의 하위 집합으로만 수행해도 유용합니다. 이 또한 주제 전문 지식이 피처 엔지니어
링에 유용하다는 사실을 보여주죠. 절제 연구는 오프라인으로, 즉 로컬 환경에서 수행할 수 있
으므로 다운타임 동안 여러분의 시스템에서 절제 연구를 수행할 수 있습니다.
모델에 새로 추가된 피처를 주시하기 바랍니다. 신규 피처를 추가했을 때 모델 성능이 크게 향
상되면 피처가 정말 좋거나 혹은 해당 피처에 레이블에 대한 유출된 정보가 포함된 것입니다.
테스트 분할을 함부로 사용해서는 안 됩니다. 테스트 분할을 신규 피처에 대한 아이디어를 내
거나 하이퍼파라미터를 조정
tuning
하기 위해 모델의 최종 성능을 산출하는 것 외의 수단으로 사
용하면 미래 정보가 훈련 프로세스로 누출될 위험이 있습니다.
5.4
좋은 피처를 설계하는 방법 좋은 피처를 설계하는 ...