필자가 강의에서 이 주제를 다룰 때 학생들은 “왜 피처 엔지니어링에 신경 써야 하나요? 딥러
닝을 수행하면 피처 엔지니어링이 필요 없지 않나요?”라고 묻곤 합니다.
옳은 말입니다. 딥러닝의 장점은 피처를 수작업으로 만들 필요가 없다는 거죠. 이러한 이유로
딥러닝을 피처 학습이라고도 합니다.
2
많은 피처들이 알고리즘에 의해 자동으로 학습되고 추출
됩니다. 다만 모든 피처를 자동화하려면 아직 멀었습니다. 이 글을 쓰는 시점에 프로덕션용
ML
애플리케이션의 대부분이 딥러닝이 아니라는 점은 말할 것도 없죠. 어떤 피처가 자동으로 추출
되고 어떤 피처를 수작업으로 만들어야 할까요? 예시를 살펴봅시다.
댓글의 스팸 여부를 분류하기 위해 감성 분석 분류기를 구축한다고 가정합시다. 딥러닝 이전
에는 텍스트 조각이 주어졌을 때 표제어 추출
lemmatization
, 줄임말 확장
expanding
contraction
, 구두
점
punctuation
제거, 소문자화
lowercasing
와 같은 고전적인 텍스트 처리 기술을 수동으로 적용해야
했습니다. 그리고 텍스트를
n
-
gram
으로 분할했죠.
n
-
gram
은 주어진 텍스트 샘플 내 항목
n
개의 연속 시퀀스입니다. 항목은
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.