5章時間データの保管

多くの場合、時系列データはライブストリーミングよりも遡って利用できることにその価値があります。このため、たいていの時系列解析では、時系列データを保管する必要があります。

データの保管問題の解決策としては、計算資源に巨額の投資をしなくてもデータへのアクセスが容易でかつ信頼性が高いものが優秀と言えます。本章では、時系列のデータ保管を設計する際に、データセットのどの面を考慮すべきかを論じていきます。また、SQLデータベース、NoSQLデータベース、様々なフラットファイル形式の利点についても解説します。

時系列データには非常に多くの種類があり、それぞれに異なった保管、読み書き、および分析のパターンがあるため、データ保管の汎用性のある問題解決の方針を設計するのは至難の技です。格納と分析が繰り返し行われるデータがある一方、短期間のみ有用で、期日が過ぎれば完全に破棄しても構わないデータもあります。

以下に、読み込み、書き込み、問い合わせのパターンが異なる時系列データの保管例を紹介します。

  1. ある生産システムの性能指標を収集しているとします。性能指標は数年単位で保管する必要がありますが、データが古くなるほど詳細は不要になります。したがって、情報が古くなるにつれ、自動的にデータをダウンサンプリングして間引くような保管システムを作成する必要があります。
  2. オープンソース時系列データのリモートレポジトリにアクセスが可能ですが、通信量を抑えるためにローカルコピーを保持する必要があります。リモートレポジトリでは、各時系列はダウンロードできるようにウェブサーバ上の複数のファイルを入れたフォルダに保管されていますが、簡便性のため、ローカルコピーはすべてのファイルを1つのデータベースに圧縮したいとします。データは、リモートレポジトリの信頼できるコピーとして、イミュータブルで無期限に保管できる必要があります。 ...

Get 実践 時系列解析 ―統計と機械学習による予測 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.