12章画像生成とテキスト生成

本書では、これまで画像を処理するコンピュータビジョンの手法に焦点を当ててきました。本章では、画像を「生成」する手法を見ていきます。まずは、画像を適切に理解して埋め込みを作成し、そこから画像生成を行うことのできるオートエンコーダなどのモデルを確認します。その後で、より直接的に画像生成を行うGANなどのモデルを紹介します。また、本章の最後には、画像の内容を表すテキスト(キャプション)を生成する方法についても見ていきます。

[Tip]

本章のコードは、本書のGitHubリポジトリの12_generationフォルダを参照してください。コードサンプルやノートブックのファイル名は必要に応じて明記します。

12.1 画像の理解

画像の中に何の要素が写っているかがわかることと、画像の中で何が起こっているかを理解し、その情報をほかの作業に利用することはまったく別のことです。この節では、画像埋め込みについて簡単に再確認した後、画像をエンコードし、その特徴を把握するためのさまざまな手法(オートエンコーダや変分オートエンコーダ)を見ていきます。

12.1.1 埋め込み

ディープラーニングでよく起こる問題は、十分なデータ、あるいは十分な品質のデータがないということです。「3章 モデルアーキテクチャ」では、転移学習について説明しました。これは、大規模なデータセットで学習したモデルから学習済みの埋め込みを抽出し、その知識を適用して小さなデータセットで効果的にモデルを学習する方法です。

Get コンピュータビジョンのための実践機械学習 ―モデルアーキテクチャからMLOpsまで now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.