50章応用:顔検出パイプライン
このⅤ部では、機械学習の中心的な概念とアルゴリズムについて学びました。しかし、こうした概念から実際のアプリケーションへの移行は容易ではありません。実際のデータセットはノイズが多く、異質なデータの混合で、特徴量が不足している可能性があり、整然とした[nサンプル, n特徴]
の行列にマッピングするのが難しい形式のデータであるかもしれません。ここで説明した手法を適用する前に、まずデータから必要な特徴量を抽出する必要があります。あらゆる領域に適用できる方法はありません。したがって、これはデータサイエンティストが自分の直感と専門知識を行使する必要がある領域です。
機械学習の応用で興味深く魅力的な分野の1つは画像処理です。ピクセルレベルの特徴量を分類に使用する例を本書でもいくつか見てきました。繰り返しになりますが、現実世界のデータは全く一様ではなく、単純なピクセルを使うだけでは適切ではありません。そのため、画像データの特徴量抽出方法に関するさまざまな文献が存在します(「40章 特徴量エンジニアリング」を参照)。
この章では、こうした特徴量抽出技法の1つ、指向性勾配ヒストグラム(HOG:Histogram of oriented gradients、https://oreil.ly/eiJ4X)を紹介します。照明のような混乱の元となる要素と無関係に、画像の広範な情報を与える特徴量に敏感なベクトル表現へとピクセルを変換します。こうして得た特徴量と、ここで学んだ機械学習アルゴリズムの考え方を使用して、簡単な顔検出パイプラインを開発します。
最初に標準的なモジュールをインポートします。
In [1]: %matplotlib inline import matplotlib.pyplot ...
Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.