2章データ表現のパターン

あらゆる機械学習モデルの核心的な点は、特定のデータのみで機能する数学的関数であるということです。一方で、現実の機械学習モデルはしばしば、数学的関数へと直接には入力できないデータ上での動作が求められます。例えば決定木の数学的な核心部分は論理型(boolean)の変数に従って動作します。決定木の機械学習ソフトウェアには通常、他にもさまざまな関数が含まれます。データから最適な木を学習し、異なる種別の数値データとカテゴリ型データを読み込み、処理する方法を学習する関数などです。しかし、決定木の根幹を支える数学的関数(図2-1を参照)は、論理型の変数上で動作し、AND演算(図2-1における&&)やOR演算(図2-1における+)などの演算を用います。

新生児の集中治療の要否を予測する決定木モデルの核心部分は、論理型変数の上で機能する数学的モデルになる

図2-1 新生児の集中治療の要否を予測する決定木モデルの核心部分は、論理型変数の上で機能する数学的モデルになる

新生児の集中治療(IC)もしくは通常通りの退院(ND)を予測する決定木を考えます。決定木は、2つの変数x1およびx2を入力としてとるものとします。訓練済みモデルは図2-1に示すようなものとなるでしょう。

f(x1, x2)が機能するためには、x1およびx2は論理型変数でなければなりません。新生児の集中治療の要否を分類する際に、モデルに考慮させたい情報は、新生児が生まれた病院と体重です。ここで、新生児が生まれた病院を、決定木の入力としては使用できません。病院という情報はTrue(真)またはFalse(偽)のいずれの値もとらず、&&(AND)演算子に与えられないためです。つまり、数学的に適合しません。もちろん、以下のような操作により病院の値を論理型に変換できます。 ...

Get 機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.