第3章 分類モデル 分類モデル
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
前章で取り上げたマシン 学習モデルは、移動距離、曜日、時間帯に基づいてタクシー料金を予測するために、様々な形態の回帰を使用した。回帰モデルは、数値的な結果を予測するもので、売上、価格、需要、その他ビジネス上の意思決定を促す数値を予測するために、産業界で広く使われている。同様に重要なのが分類モデルで、クレジットカード取引が不正かどうかや、手書き文字がアルファベットのどの文字を表しているかなど、カテゴリー別の結果を予測する。
ほとんどの 分類モデルは、可能性のある結果が2つだけ存在する二値分類モデルと、可能性のある結果が2つ以上存在する多クラス分類モデルの2つのカテゴリーに分類される。どちらのインスタンスでも、モデルは入力に1つのクラス(クラス・ラベル)を代入する。あまり一般的ではないが、マルチラベル分類モデルは、1つの入力を複数のクラスに分類することができる。例えば、ある文書がマシンラーニングの論文であると同時にゲノミクスの論文であると予測するような場合である。入力がどのクラスにも属さないことを予測できるものもある。
回帰モデルについて知っていることの多くは、分類モデルにも当てはまる。例えば、回帰モデルを強力にする学習アルゴリズムの多くは、分類モデルでも同様に機能する。 回帰と分類の実質的な違いの1つは、モデルの精度を測定する方法である。分類モデルにはR2スコアというものはない。その代わりに、精度、再現率、特異度、感度、F1スコアなど、豊富な指標がある。分類モデルを使いこなすための鍵の1つは、様々な精度メトリックに慣れることであり、さらに重要なことは、モデルの用途に基づいてどのメトリックを使うべきかを理解することである。
第1章の虹彩のチュートリアルで、多クラス分類の一例を見ただろう。機械学習分類器をより深く掘り下げるときが来た。最も試行錯誤の多い学習アルゴリズムの1つで、分類モデルだけに有効なもの、ロジスティック回帰から始めよう。
ロジスティック回帰
分類問題には、多くの 学習アルゴリズムが存在する。第2章では、決定木、ランダムフォレスト、勾配ブースティング・マシン(GBM)がどのように学習データに回帰モデルを適合させるかを学んだ。これらのアルゴリズムは分類にも使用でき、Scikitは以下のようなクラスを提供することで支援する。 DecisionTreeClassifier, RandomForestClassifierや GradientBoostingClassifier.第1章では、ScikitのKNeighborsClassifier クラスを使って、k-nearest neighborsを学習アルゴリズムとする3クラス分類モデルを構築した。
これらは重要な学習アルゴリズムであり、現代の多くのマシン学習モデルで使われている。これはデータの分布を分析し、与えられたサンプルが2つのクラスのそれぞれに属する確率を定義する方程式に当てはめる。例えば、サンプルの値がクラス0に対応する確率は10%で、クラス1に対応する確率は90%であると決定するかもしれない。この場合,ロジスティック回帰は,標本がクラス1に対応すると予測する.名前付けとは裏腹に、ロジスティック回帰は分類アルゴリズムであり、回帰アルゴリズムではない。その目的は、回帰モデルを作成することではなく、入力標本を分類する目的のために確率を定量化することである。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access