37章機械学習とは?

機械学習の詳細に立ち入る前に、まず機械学習が何であるか、それが何でないかについて考えてみましょう。機械学習はしばしば人工知能の一分野として分類されますが、この考え方は誤解を招く可能性があると筆者は考えています。機械学習の研究は確かにこの分野から生じましたが、データサイエンスの応用としての機械学習手法はデータモデル構築のための手段と考える方が有益です。

この文脈では、モデルの調整可能なパラメータ(tunable parameters)を観測されたデータに適合させる際に「学習」が登場します。この時、プログラムがデータから「学習」したとみなされます。モデルをデータに適合させた後には、新たに観測されたデータに対する振る舞いを予測したり理解するために利用できます。こうした数学的およびモデルベースの「学習」と、人間の脳が行う「学習」がどの程度類似しているか、その哲学的な議論は読者に譲ることとします。

機械学習の手法を効果的に使用するためには、設定された問題の理解が不可欠です。そこで、最初に本書で取り上げる手法を分類します。

37.1 機械学習の分類

機械学習は教師あり学習と教師なし学習の2つに分類できます。

教師あり学習は、何らかの方法で観測されたデータの特徴と、そのデータに関連する何らかのラベルとの関係をモデル化します。この学習済みのモデルは、新しい未知のデータにラベルを付与するために使用できます。教師あり学習は、さらに分類と回帰に細分化される場合もあります。分類(classification)のラベルは離散的なカテゴリですが、回帰(regression)のラベルは連続量です。次の節で両方の教師あり学習の例を示します。

教師なし学習では、ラベルを使用せずにデータセットの特徴をモデル化します。このモデルには、 ...

Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.