7章推薦システムの評価

推薦システムを活用したサービスの成長のためには、評価が欠かせません。推薦システムの評価には大きく分けて、オフライン評価とオンライン評価、ユーザースタディがあります。それぞれに長所と短所が存在し、どの評価手法もそれぞれ重要な役割を持っています。本章では、それぞれの推薦システムの評価について理解を深め、ユーザーに価値を届けるための正しい意思決定を行えるようになることを目的とします。

7.1 3つの評価方法の概要

オフライン評価

オフライン評価では、実際のサービス上での閲覧や購買などのユーザーの行動履歴から得られた過去のログ(サービスログ)を用いてモデルの予測精度などを評価します。サービスログを用いたオフライン評価のメリットは、評価のコストが低いことや、データ量が豊富なため評価結果のばらつきが小さいことにあります。一方で、オフラインで性能が良かった推薦モデルを実際にリリースしてみても、ビジネス目標であるユーザー満足度や売上に貢献しないこともあります。そのため、オフライン評価ではビジネス目標の代替指標となるオフライン評価指標を適切に設定することが重要です。本章で評価指標とは学習したモデルの性能や予測値の良し悪しを測る指標のことを指します。

オンライン評価

オンライン評価は、新しいテスト対象の推薦モデルや新しいユーザーインタフェイスを一部のユーザーへ実際に掲出することを通して評価を行います。そのため、売上などのビジネス目標にどのくらい貢献したかを直接知ることができ、オフライン評価よりも正確な評価が行いやすいです。一方で、リリースまで行う実装コストが高く、また新規の推薦モデルの性能が悪かった場合にはユーザー体験を毀損してしまうリスクがあります。

ユーザースタディ

Get 推薦システム実践入門 ―仕事で使える導入ガイド now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.