3章問題表現のパターン

「2章 データ表現のパターン」では、機械学習モデルの入力を表現するさまざまな方法をまとめたデザインパターンを見ました。本章では、さまざまな種類の機械学習の問題を取り上げ、問題に応じてモデルのアーキテクチャがどのように変わるのかについて分析します。

入力や出力の形式は、モデルのアーキテクチャに影響を与える2つの重要な要素です。例えば、教師あり機械学習の問題では、解決しようとしている問題が分類なのか回帰なのかによって、出力が異なります。また、画像・音声・テキストなど時間方向または空間方向に相関のあるデータには畳み込み層、系列データには回帰型ニューラルネットワークなど、入力データの種類に対して効果的なニューラルネットワークの層が存在します。これらの層を活用するにあたって、最大値プーリング(max pooling)やアテンション(attention)などの特別な方法があり、膨大な文献が存在します。行列分解などによる推薦やARIMAなどの時系列予測のような問題を扱う場合に対しても、さまざまな解決策が作られています。さらに、より複雑な問題を解決するために、共通のイディオムを用いた単純なモデル群を使用できます。例えば、テキスト生成には、ビームサーチアルゴリズムを用いて出力を後処理する分類モデルを使用することがよくあります。

ここでは活発な研究分野から離れ、議論を限定し、機械学習の特定の専門分野に関連するパターンや慣用的な用法は無視します。代わりに、回帰と分類に焦点を当て、この2種類の機械学習モデルにおける問題表現のパターンを検討します。

問題再設定パターンでは、直感的には回帰問題を分類問題として捉えます。または逆に分類問題を回帰問題として捉えます。マルチラベルパターンでは、訓練サンプルを複数のクラスに割り当てます。 ...

Get 機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.