8章特徴量作成の自動化:画像特徴量の抽出と深層学習
視覚と聴覚は人間が生まれながらにして持つ感覚です。私たちの脳は視覚/聴覚信号を処理できるように進化しており、脳の一部は誕生前でさえ外部刺激に反応できるように発達しています[Eliot, 2000]。一方で言語能力については学習を通じて獲得されていくものであり、その学習には年月を必要とします。つまり、多くの人々にとって視覚や聴覚は当たり前のように発達していくものですが、言語を理解し利用できるようになるには私たちの脳を意図的に訓練させなければなりません。
面白いことにこれは機械学習とは全くの逆の状況といえます。言語情報を用いたテキスト分析に対する機械学習の方が、画像や音声に対する機械学習より遥かに取り組みやすいでしょう。例えば情報検索の分野においては言語情報を用いた検索が主流であり、画像や音声の検索はまだ完璧なものとはいえません(とはいえ、ここ5年間における深層学習の発展は画像や音声の検索においてブレイクスルーをもたらしました)。
情報検索におけるこの違いは有効な特徴量を抽出することの難しさに関連しています。機械学習を用いたモデルは予測を行う上で意味のある特徴量を必要とします。言語情報(例えば英語)を入力として扱う場合、意味のある特徴量の基本単位は単語という形で容易に得られます。それゆえに言語情報を扱う機械学習モデルは飛躍的に発展してきました。一方、画像や音声はピクセルや波形という形で記録されています。画像を構成する最小の要素はピクセルであり、音声の場合それは波形の強度です。これらは言語情報の構成要素である単語に比べるとほとんどセマンティックな情報を持っていません。したがって、画像や音声における特徴量の抽出および加工は言語情報に比べると難しいのです。 ...
Get 機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.