다. 마찬가지로, 훈련 초반에 학습률이 너무 높으면 모델이 처음 몇 개 배치에서 지나치게 학습
해 성능이 불안정해질 수 있습니다.
이러한 문제를 방지하려면 훈련 진행 상황에 따라 학습률을 자동으로 조정할 수 있도록 학습률
스케줄러를 활용하는 것이 좋습니다.
허깅 페이스는 다양한 스케줄러를 지원합니다. 그중 주요한 몇 가지는 다음과 같습니다.
상수 스케줄
가장 기본적인 스케줄 방식으로, 훈련 전체 기간의 학습률이 일정하게 유지됩니다.
워밍업이 있는 상수 스케줄
이 설정에서는 학습률이
0
에서 시작해 워밍업 단계 동안 지정된 학습률까지 선형적으로 증가합니다. 워밍업
단계가 끝나면 학습률은 일정하게 유지됩니다.
[그림
6
-
1
]은 워밍업이 있는 상수 스케줄러를 사용할 때 시간에 따른 학습률 변화를 보여줍니다.
단계
워밍업이 있는 상수 스케줄
학습률
학습률
그림
6-1
워밍업이 있는 상수 스케줄의 학습률 변화
코사인
코사인 어닐링
cosine
annealing
이라고도 하는 이 설정에서는 학습률이 워밍업 단계 후 코사인 함수에 따라 천천히
0
으로 감소합니다. [그림
6
-
2
]는
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.