
347
9
장
연속 학습과 프로덕션 테스트
라우팅하기 위해 무작위화할 필요가 없습니다. 그럴듯한 시나리오 한 가지는 후보 모델을 모두
에게 롤아웃하기 전에 덜 중요한 시장에 먼저 롤아웃하는 것입니다.
업계에서 카나리 배포를 어떻게 사용하는지 궁금하다면 넷플릭스와 구글에서 공동으로 기고한
블로그 글
42
을 참조하기 바랍니다. 해당 글은 기업에서 자동화된 카나리 분석을 사용하는 방식
과 관련 플랫폼 카옌타
Kayenta
43
를 설명합니다.
9.2.4 9.2.4
인터리빙 실험인터리빙 실험
두 추천 시스템
A
와
B
중 어느 것이 나은지 평가한다고 해봅시다. 각 모델은 사용자가 좋아할
만한 아이템을
10
개씩 추천합니다.
A
/
B
테스트를 수행하기 위해 사용자를 두 그룹으로 분리
합니다. 한 그룹은
A
에 노출되고 다른 그룹은
B
에 노출되며, 각 사용자는 한 모델의 추천 사항
에 노출됩니다.
사용자를 한 가지 모델의 추천 사항에 노출하는 대신, 두 모델의 추천 사항에 노출하고 어느 모
델의 추천 사항을 클릭하는지 확인하면 어떨까요? 이것이
2002
년에 토르스텐 요아킴스
Thorsten
Joachims
가 검색 순위 문제에 관해 제안한 인터리빙 실험의 아이디어입니다.
44
넷플릭스는 실험
을 통해 인터리빙이 “기존
A
/
B
테스트에 비해 훨씬 적은 샘플로 최상의 알고리즘을 안정적으
로 식별한다”는 ...