
27
1
장
머신러닝에서 데이터로 의사 결정을 내리는 방법
1.2.5
데이터 변환 및 특징 선별
데이터를 정리하고 분석하면
ML
문제를 해결하는 데 필요한 특징 목록을 얻을 수 있습니다.
하지만 얻은 목록에 포함되지 못한 다른 특징도 유의미할 수 있지 않을까요? 특징 공학
feature
en-
gineering
은 원래 데이터셋에 없던 새로운 특징을 만들어냅니다. 가령 데이터셋이 월, 일, 연도를
별도의 열로 저장한다면, 이들을 결합해 ‘월-일-년’이라는 새로운 시간적 특징을 만들 수 있겠
죠. 특징 공학은 특징 선별 전에 수행하는 마지막 단계입니다.
실제로 특징 선택은
EDA
이후와 데이터 변환 이후의 두 단계로 이루어집니다. 예를 들어,
EDA
후에는 시간과 요일을 결합하여 하루 중 한 시간을 얻는 등 새로운 특징을 만들 후보가
될 잠재적인 특징 목록이 있어야 합니다. 특징 공학을 수행한 후에는 선택할 수 있는 최종 특징
목록을 얻게 됩니다. [그림
1
-
9
]는 워크플로에서 데이터 변환과 특징 선택이 언제 이루어지는
지를 보여줍니다.
그림
1-9
ML
워크플로상 데이터 변환과 특징 선택이 일어나는 위치
목표/문제
정형
비정형
반정형
데이터 수집
서로 다른 출처에서
취득한 데이터를 모으고
조합
데이터 전처리 데이터 분석 데이터 변형
•구조화
•정리
•샘플링
•
EDA
•경향성/패턴 ...