
194 7 章 数理モデル
7.3.1 分類問題のベースラインモデル
デー
タサイエンスモデルのタスクは、一般に分類と値予測の 2 つに分けられる。分類のタスクでは、(ス
パム, スパムでない)、(男, 女)、(自転車, 車, トラック)といった小規模なラベルの集合が与えられたとき、
それぞれのメール、人間、乗り物に対応する正しいラベルを生成できるシステムを目的とする。
分類タスクの代表的なベースラインモデルは、次のようなものである。
• 特定のラベルやランダムなラベルの選択:オブジェクトの事前分布がまったくわからないなら、何も
しないよりも壊れた時計方式で適当に値を選んだ方がよい。株式市場の予測モデルをコイン投げと比
較すれば、株式市場の予測がいかに難しいかを示すことができるだろう。
私は、このように何も考えずに作る分類器は、ペットに判断を求めるようなものだという意味で猿以
下だと思っている。ラベル、クラスが 20 種類もあるような分類問題で、正解率が 5 % よりも大幅に
高いなら、あなたがその問題について何らかの知見を持っている第 1 の証拠になる。私に信頼してほ
しいと思うなら、まず、自分が猿以上であることを示してもらわなければならない。
• 訓練データセットで最も多くの要素が属しているラベル:大規模な訓練セットには、通常何らかの形
でクラスの事前分布という概念がある。最も頻度の高いラベルを選択した方が、特に根拠なしに特定
のラベルを常に選んだり、ランダムにラベルを選んだりするよりもよい。これは、明日太陽は昇るだ ...