팀-드래프트를 사용해 두 가지 랭킹 알고리즘으로 생성한 영상 추천 사항을 인터리빙합니다(출처: 파크스
등
48
).
9.2.5 9.2.5
밴딧밴딧
밴딧
bandit
알고리즘은 도박에서 유래했습니다. 카지노에는 지급액이 각기 다른 여러 슬롯머신
이 있습니다. 슬롯머신은 원 암드 밴딧
one
-
armed
bandit
이라고도 하므로 그 이름을 따왔습니다.
어느 슬롯머신이 가장 높은 보상을 주는지는 모릅니다. 따라서 여러 번 실험을 통해 슬롯머신
의 보상을 최대화하는 동시에 어떤 슬롯머신이 가장 좋은지 알아냅니다. 멀티 암드 밴딧
multi
-
armed
bandit
은 활용
exploitation
(과거에 보상을 가장 많이 준 슬롯머신 선택)과 탐색
exploration
(향후
보상을 더 많이 줄 수 있는 다른 슬롯머신 선택) 사이에서 균형을 맞추는 알고리즘입니다.
현재 프로덕션에서 모델 테스트에 사용하는 표준 방법은
A
/
B
테스트입니다.
A
/
B
테스트를 사
48
Parks
et
al
. (
2017
).
Innovating
Faster
on
Personalization
Algorithms
.
350
머신러닝 시스템 설계
용하면 예측을 위해 트래픽을 각 모델에 무작위로 라우팅하고, 시행이 끝나면 어느 모델이 더
잘 작동하는지 측정합니다. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.