6章他のコンピュータビジョン問題

 前章では、モデルを訓練する上で重要で実用的な技術をいくつか学んだ。学習率や訓練エポック数を注意深く選択することは、良い結果を得るためにとても重要だ。

 本章では他のコンピュータビジョン問題を2つ見ていく。マルチラベルクラス分類と回帰だ。前者は、各画像に対して複数のラベル(もしくはラベルなし)を予測したい場合に用いる。後者は、ラベルが1つもしくは複数の数値になる場合に用いる。つまりカテゴリではなく量を予測する場合だ。

 その過程で、ディープラーニングモデルの出力活性値、目標変数、ロス関数についてより深く学んでいく。

6.1 マルチラベルクラス分類

 マルチラベルクラス分類(multi-label classification)とは、1つのオブジェクトしか含まれていないとは限らない画像から、そこに写っているもののカテゴリを特定する問題だ。複数の種類のオブジェクトが写っているかもしれないし、探しているオブジェクトがまったく写っていないかもしれない。

 例えば、「クマクラス分類器」もこのようなアプローチで作ってもよかった。「2章 モデルから実運用へ」で作成したクマクラス分類器の問題の1つは、ユーザがクマでないものをアップロードした場合にも、モデルはグリズリーかクロクマかテディベアかに分類してしまうことだ。「クマではない」と予測する機能がないのだ。本章を終えたら、クマクラス分類器に戻って、マルチラベル技術を適用してみるのはいい練習問題だろう。これら3つのクマではない画像を与えて結果を見てみるといい。

 実のところマルチラベルクラス分類器をこのような目的で使っている人を見かけることはあまりない。しかし、ユーザや開発者がこの問題を嘆いているのはよく聞く。どうも、この簡単な解決法はあまりよく知られても理解されてもいないようなのだ。実際には、画像の中に1つだけものがあることは少なく、複数だったりまったくなかったりすることのほうが多いはずなので、マルチラベルクラス分類器は単一ラベルのクラス分類器よりも実用上の用途は広いはずだ。 ...

Get PyTorchとfastaiではじめるディープラーニング ―エンジニアのためのAIアプリケーション開発 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.