가 커질수록 첫 번째 항보다 두 번째 항을 최소화하는 것이 더 중요해진다. 최종 모델이 데
이터에 완벽하게 맞지 않을 수는 있지만(높은 편향), 본 적 없는 데이터에 더욱 잘 일반화하기 위해 때로는
큰
a
가 바람직할 수도 있다(낮은 분산).
●
a
가 작으면(예를 들어
0
에 가깝다면) 더 큰
w
값을 선택할 수 있으며 첫 번째 항을 최소화하는 것이 더 중
요해진다. 이 경우 최소화 과정을 통해 첫 번째 항을 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.