
334
머신러닝 시스템 설계
에 대한 통계량을 계산할 수 있습니다. 하지만 이는 통계량이 부분 집합에 따라 크게 다름을 의
미하죠. 한 부분 집합으로 계산한 통계량은 다른 부분 집합과 크게 다르므로, 한 부분 집합으로
훈련한 모델을 다른 부분 집합으로 일반화하기가 어렵습니다.
서로 다른 부분 집합 간에 통계량을 안정적으로 유지하려면 통계를 온라인으로 계산하는 편
이 좋습니다. 모든 데이터의 평균이나 분산을 한 번에 사용하는 대신 신규 데이터를 볼 때마
다 통계량을 점진적으로 계산하거나 근사합니다. 논문 「
Optimal
Quantile
Approximation
in
Streams
」
27
에서는 이러한 알고리즘을 설명합니다. 오늘날 인기 있는 프레임워크들에
서는 구간 통계
running
statistics
를 계산하는 기능을 일부 제공합니다. 예를 들어, 사이킷런의
StandardScaler
에는 구간 통계과 함께 피처 스케일러를 사용하는
partial
_
fit
메서드가 있
습니다. 다만 프레임워크의 내장 메서드는 속도가 느리며 구간 통계를 폭넓게 지원하지 않습
니다.
28
9.1.4 9.1.4
연속 학습의 네 단계연속 학습의 네 단계
지금까지 연속 학습이 무엇이고 왜 중요하며 어떤 난제가 있는지 알아봤습니다. 이어서 이러한
난제를 극복하고 연속 학습을 수행하는 방법을 살펴봅시다. ...