2章時系列データの見つけ方と前処理

本章では、時系列データの前処理を行う際に起こりがちな問題を解説します。経験豊富なデータアナリストならよく知っている問題も含まれますが、タイムスタンプが引き起こす特殊なものもあります。他のデータ解析タスクにもあてはまることですが、データのクリーニングと適切な処理は、タイムスタンプパイプラインの最も重要なステップです。どんなに凝った技法を駆使しても、汚いデータは修正できないからです。

ほとんどのデータアナリストは、時系列解析を学んだり、所属組織で有意義な仕事をするために、自分に必要なデータを見つけて、揃えて、磨いて、滑らかにする必要があります。データの前処理には、バラバラな列を連結したり、不規則だったり欠損しているデータのサンプリングをやり直したり、異なる時間軸を持つ時系列データを揃えたりと、様々な作業を行う必要があります。本章では、正しく前処理が施された興味深い時系列データセットを作成する手伝いをします。

ここでは、時系列データを見つけてクリーニングするのに役立つ、以下のスキルを解説します。

  • オンラインレポジトリから時系列データを見つける
  • 元々時系列として使うことを意図していないソースから時系列データを発掘して前処理を行う
  • 時系列データを取り扱う際に遭遇しがちなトラブル、特にタイムスタンプに起因する問題に対処する

本章を読むと、後ほど解析を行う興味深い時系列データのソースの見極めと前処理に必要なスキルが身に付きます。

2.1 時系列データをどこで見つけるか

時系列データをどこで探しどうクリーニングするかを知りたい場合、目的が以下のどちらかによって、本章の適する部分が異なります。

  • 学習や実験に適切なデータセットを見つけたい
  • 明示的な時間指向の形式で保存されていない既存データから時系列データを作成したい ...

Get 実践 時系列解析 ―統計と機械学習による予測 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.