12章画像生成とテキスト生成
本書では、これまで画像を処理するコンピュータビジョンの手法に焦点を当ててきました。本章では、画像を「生成」する手法を見ていきます。まずは、画像を適切に理解して埋め込みを作成し、そこから画像生成を行うことのできるオートエンコーダなどのモデルを確認します。その後で、より直接的に画像生成を行うGANなどのモデルを紹介します。また、本章の最後には、画像の内容を表すテキスト(キャプション)を生成する方法についても見ていきます。
本章のコードは、本書のGitHubリポジトリの |
12.1 画像の理解
画像の中に何の要素が写っているかがわかることと、画像の中で何が起こっているかを理解し、その情報をほかの作業に利用することはまったく別のことです。この節では、画像埋め込みについて簡単に再確認した後、画像をエンコードし、その特徴を把握するためのさまざまな手法(オートエンコーダや変分オートエンコーダ)を見ていきます。
12.1.1 埋め込み
ディープラーニングでよく起こる問題は、十分なデータ、あるいは十分な品質のデータがないということです。「3章 モデルアーキテクチャ」では、転移学習について説明しました。これは、大規模なデータセットで学習したモデルから学習済みの埋め込みを抽出し、その知識を適用して小さなデータセットで効果的にモデルを学習する方法です。
Get コンピュータビジョンのための実践機械学習 ―モデルアーキテクチャからMLOpsまで now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.