12章画像生成とテキスト生成

本書では、これまで画像を処理するコンピュータビジョンの手法に焦点を当ててきました。本章では、画像を「生成」する手法を見ていきます。まずは、画像を適切に理解して埋め込みを作成し、そこから画像生成を行うことのできるオートエンコーダなどのモデルを確認します。その後で、より直接的に画像生成を行うGANなどのモデルを紹介します。また、本章の最後には、画像の内容を表すテキスト（キャプション）を生成する方法についても見ていきます。


	本章のコードは、本書のGitHubリポジトリの`12_generation`フォルダを参照してください。コードサンプルやノートブックのファイル名は必要に応じて明記します。

12.1　画像の理解

画像の中に何の要素が写っているかがわかることと、画像の中で何が起こっているかを理解し、その情報をほかの作業に利用することはまったく別のことです。この節では、画像埋め込みについて簡単に再確認した後、画像をエンコードし、その特徴を把握するためのさまざまな手法（オートエンコーダや変分オートエンコーダ）を見ていきます。

12.1.1　埋め込み

ディープラーニングでよく起こる問題は、十分なデータ、あるいは十分な品質のデータがないということです。「3章　モデルアーキテクチャ」では、転移学習について説明しました。これは、大規模なデータセットで学習したモデルから学習済みの埋め込みを抽出し、その知識を適用して小さなデータセットで効果的にモデルを学習する方法です。

Get コンピュータビジョンのための実践機械学習 ―モデルアーキテクチャからMLOpsまで now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

コンピュータビジョンのための実践機械学習 ―モデルアーキテクチャからMLOpsまで by Valliappa Lakshmanan, Martin Görner, Ryan Gillard, 大山匠, 松田晃一

12章画像生成とテキスト生成

12.1　画像の理解

12.1.1　埋め込み

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

12章画像生成とテキスト生成

12.1 画像の理解

12.1.1 埋め込み

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

12.1　画像の理解

12.1.1　埋め込み