이 방법은 표준 모델에 비해 작은 모델을 빠른 속도로 개발하는 데 사용되고 있습니다. 다만 특
정 모델 유형에만 적용되는 경향이 있고(예: 소형 합성곱 필터는 합성곱 신경망에만 적용) 모
델을 설계하는 데 많은 아키텍처 지식이 필요해 아직 널리 적용되지 않습니다.
7.3.2 7.3.2
지식 증류지식 증류
지식지식
증류증류
knowledge
distillation
는 작은 모델(학생)이 더 큰 모델이나 모델의 앙상블(교사)을 모방
하도록 훈련하는 방법으로, 배포할 대상은 더 작은 모델(학생)입니다. 학생이 사전 훈련된 교
사를 따라 훈련하는 경우가 많지만 둘이 동시에 훈련할 수도 있습니다.
26
프로덕션에 사용되는
증류 네트워크로
DistilBERT
가 있으며, 이는
BERT
모델보다 매개변수는
40
% 적으면서 언어
이해 능력
Natural
Language
Understanding
(
NLU
)은
97
% 성능을 유지하고
60
% 더 빠릅니다.
27
이 접근 방식의 장점은 교사와 학생 네트워크 간에 아키텍처가 달라도 관계없이 작동한다는 점
입니다. 예를 들어, 학생 모델로 랜덤 포레스트를, 교사 모델로 트랜스포머를 훈련할 수 있죠.
반면에 단점은 교사 네트워크의 가용성에 크게 의존한다는 점입니다. 사전 훈련된 모델을 교사
모델로 사용한다면 학생 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.