8章特徴量の生成と選択

「6章 時系列に使える統計モデル」「7章 時系列に使える状態空間モデル」では、1つの時系列の全データポイントを使って、モデルを当てはめる時系列解析の手法を検討しました。これに対し、本章では、次章で論じる時系列解析への機械学習の適用の準備として、時系列の特徴量の生成と選択を学びます。特徴量の生成の概念になじみがなくても、すぐに慣れます。特徴量生成は、直観的に理解できる過程であり、データ分析の創造的な一面を発揮するものです。

特徴量生成とは、時系列データの最も重要な特性を、ほんの数個の数値とカテゴリラベルで要約する定量的な方法を見つける過程です。ある時系列を記述するために、生の時系列データを圧縮して一連の特徴量で代表し、より短く表現するわけです(この後すぐに簡単な例で説明します)。例えば、非常に単純な特徴量生成は、どんな時系列でも、その平均値とタイムステップ数で表したものです。これは、生データを1ステップずつ追わずに時系列を記述する1つの方法です。

特徴量生成の目的は、全部の時系列に関する情報をできる限りいくつかの計量(メトリクス)に圧縮すること、あるいは、それらの計量を用いて時系列に関する最も重要な情報を特定し、それ以外の情報を破棄することです。これは、機械学習手法にとっては重要なことです。大半の機械学習手法は時間データではないデータ用に開発されていますが、時系列を適切にフォーマットされた入力に変換できさえすれば、時系列問題に対しても有益に適用できます。本章では、よく使われる時系列特徴量を自動的に生成するパッケージに着目し、コードの再発明や手作業のプログラミングが不要になるようにしています。

有用と思われる特徴量が生成できたら、次はそれらが真に有用であることを確認する必要があります。手作業では、不要な特徴量をたくさん作ることはまずないでしょうが、下流の機械学習で用いる目的で、大量の特徴量を自動的に生成するコードを実行する場合には、この点が問題になります。このため、一旦生成された特徴量を検査して、以降の分析の前に破棄できるものを特定する必要があります。 ...

Get 実践 時系列解析 ―統計と機械学習による予測 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.