第5章 モデル選択の自動化 モデル選択の自動化
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
"pull out all the stops "という格言は、目標を達成するためにあらゆるリソースを使い果たすという意味だが、現在DLでモデルを設計する方法にも当てはまるかもしれない。この作業は、オルガン奏者がバリエーション豊かなストップを用いてさまざまな音色を奏でるように、DLモデルの複数の設定を調整することになる。膨大な可能性の空間から、特定の下流タスクに適切なクラス、構成、パラメータを得ることは、モデルの選択として知られている。図5-1に示すように、このモデルの選択ステップは面倒であり、最終モデルのトレーニングよりも数桁多いコンピューティングリソースを必要とする。さらに、DLにおけるモデルの選択プロセスは、科学であると同時に芸術であることが知られており、多大な人的労力を必要とする。1
図5-1. 氷山の一角」ということわざは、DLでモデルの選択を行う際にあまり取り上げられないコストを捉えている。膨大な仮説空間は、単一のモデルのトレーニングコストに比べ、モデルの選択コストを何倍にも増加させる。
この章では、モデルの選択が計算コストのかかるプロセスである理由を理解し、モデル選択の基本概念をいくつか見て、このステップに関わる AI の無駄を特定し、モデル選択のための様々なツールを試してみる。AI手法の全体的な効率を向上させることを目的としながら、性能と効率の妥当なトレードオフを達成するためのヒントを提供する。
動機
DL モデルの選択は、モデルのクラス、選択されたモデルクラスのアーキテクチャ、活性化関数、接続パターン、正則化テクニックなどに関する選択の多さから、困難なタスクである。このような選択の幅の結果、 仮説空間として知られる、無限とは言わないまでも、膨大なモデルの可能性のセットが生まれる。モデル選択のタスクは、この仮説空間から、下流のタスクに適切なモデルを選択することである。この空間のスケールと複雑さは、網羅的な探索を退屈で、面倒で、リソースを大量に消費する。
ResNetのようなモデルで構成される、画像分類のためのフィードフォワードCNNのスペースを考えてみよう。2標準的なGPUでCIFAR-10のようなベンチマークデータセットにResNetのような単一モデルをトレーニングすると、5分ほどかかる。しかし、ResNetのようなモデルが存在する仮説空間を包括的に探索することは、計算の観点からは法外なコストがかかる。単純化した例として、NAS-Bench-101データセットによれば、CNNの空間は423,000のユニークなアーキテクチャで構成されている。3NAS-Bench-101の認可によれば、このスペースにあるすべてのモデルをトレーニングするのに必要な計算量は、100TPU年という途方もない量になる!特定のモデルのハイパーパラメーターだけを徹底的に探索する標準的なモデル選択では、1つのモデルをトレーニングするよりも数桁多い計算が必要となる。トレーニングリソースのコストは氷山の一角に過ぎず、計算の大部分はモデルの選択に費やされる(図5-1)。
膨大な仮説スペースから適切なDLモデルを得ることは、ダウンストリームタスクで満足のいくパフォーマンスを達成するための重要なステップである。しかし、従来のような網羅的探索によるモデルの選択は、ほとんどの場合実行不可能であり、AIの無駄が多い( ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access