6章組合せのバンディット: バンディットアルゴリズムと統計モデルの出会い
上司のエレンに鋭い質問をされて一時は失意のチャーリーでしたが、多腕バンディット問題という定式化に出会ったことで、より包括的な視点で実験を計画できるようになりました。それまではレポートが与えられた上で適切な判断を下すための手法を中心に学んできましたが、多腕バンディット問題では累積報酬を最大化するためにデータを取りに行く方策まで含めて考えます。
しかし、これまでに紹介したバンディットアルゴリズムではまだカバーできていない領域があります。それは、解が組合せの構造を持つ場合です。3章では、ウェブサイトが複数の要素の組合せで成り立っているときに、それぞれの要素およびその組合せがもたらす効果に着目した統計モデルを構築すると、小さいサンプルからでも有用な情報が得られることがわかりました。バンディットアルゴリズムにも同じような工夫を導入することはできないのでしょうか?
このような問題設定をバンディット問題として扱った定式化に文脈付きバンディット問題(contextual bandit problem)があります。文脈付きバンディット問題では、これまでに紹介した多腕バンディット問題とは異なり、各選択肢が何らかの属性の組合せ、つまり特徴量(feature)によって表されると考えます。そして、その特徴が何らかの法則によって報酬の期待値を決定していると考えます。スロットマシンの例で言えば、属性としてアームの色や大きさなどを想像してみるといいでしょう。もちろん、それらの属性と報酬の期待値の間に具体的にどのような関係があるのかは事前にはわかりません。しかし属性と報酬の期待値の間のモデルを考えることで、各アームをただ独立な解として捉えるのではなく、「同じ色を持っている」「同じ形状をしている」といった情報を探索のヒントとして活用できるようになります。そのイメージを ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access