11章時系列データ
時系列データは、金融、経済、生態学、神経科学、物理学など、さまざまな分野において重要な構造化データです。複数の時点において繰り返し記録されたデータは、どのようなものでも時系列を構成します。多くの時系列は一定頻度です。つまり、15秒おき、5分おき、1ヶ月に1度などの一定のルールに従った間隔でデータポイントが発生します。しかし、時系列は固定の単位時間やオフセットがないような不規則なものであってもかまいません。時系列データをどのように表現して参照するかは、そのデータの実際の使い道によります。例えば、次のような表現方法があるでしょう。
タイムスタンプ
複数の具体的な時刻。
一定の期間
2007年1月という1ヶ月、2010年という1年、など。
時間の間隔
開始と終了のタイムスタンプで定めたもの。期間は、時間の間隔の特殊なケースとみなせる。
経験時間または経過時間
各タイムスタンプを、特定の開始時間からの相対時間として計測したもの(例えば、オーブンに置かれてから1秒ごとに焼き上がるクッキーの直径など)。ゼロ始まりの値。
この章では、最初の3つのケースの時系列に主に着目します。しかし、多くのテクニックは、開始時間からの経過時間(整数や浮動小数の値になる)をインデックスとして持つ時系列にも適用できます。最もシンプルな時系列は、タイムスタンプをインデックスとして持つ時系列です。
pandasは、時刻の差分(タイムデルタ、timedelta)に基づいたインデックスもサポートしています。タイムデルタは、経験時間や経過時間を表現するのに便利です。しかしながら、この本では、タイムデルタを使ったインデックスに関しては紹介しません。これについての詳細は、pandasの公式ドキュメント( ... |
Get Pythonによるデータ分析入門 第3版 ―pandas、NumPy、Jupyterを使ったデータ処理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.