付録A線形モデリングと線形代数の基礎

A.1 線形分類の概要

異なるクラスのラベルが付いているデータセットを取り扱う場合、特徴空間の中に異なるクラスのデータ点が存在することになります。分類器の仕事は、異なるクラスに属するデータ点を分類することです。分類器は、あるクラスと他のクラスを区別できるようなラベルや確率などを生成して分類を行います。例えば、クラスが2つしかない場合、良い分類器は1つのクラスに対して大きな確率を生成し、別のクラスに対しては小さな確率を生成します。あるクラスと他のクラスの識別の境目は決定面(decision surface) と呼ばれます(図A-1)。

単純な二値分類器が2つのクラスからなるデータ点を識別する決定面を算出する

図A-1 単純な二値分類器が2つのクラスからなるデータ点を識別する決定面を算出する

さまざまな種類の関数を分類器として使うことができますが、クラスをきれいに分けることができる最も単純な関数を探したほうが良いでしょう。その理由を説明します。まず第一に、複雑な分類器よりも単純でよく機能する分類器を見つけるほうが簡単です。また、単純な関数は学習データに対して過剰適合(overfitting)しにくいため、学習データとは別の新しいデータに対する当てはまり度合い(汎化性能)が高くなる傾向にあります。単純なモデルでは、図A-1のように、いくつかの点を間違って分類してしまいます。このようにする理由は、学習データに対する精度を犠牲にしてでも、テストデータに対してより良い精度を達成する単純な決定面を構築するためなのです。複雑さを最小限に抑え有用性を最大限にするという原則は「オッカムの剃刀(Occam's ...

Get 機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.