August 2023
Intermediate to advanced
612 pages
9h 33m
Japanese
データをカテゴライズしてグループごとに関数を適用するという作業は、目的が集約であっても変換であっても、データ分析のワークフローの中で最も重要な部分となります。というのも、データを読み込み、マージし準備した後には、グループごとの統計計算を行うことや、(場合によっては)レポーティングや可視化のためにピボットテーブルを使うことが発生するからです。pandasは柔軟なgroupbyインタフェースを持っており、これを利用することで、データセットを自然な方法で小分けして集約することが可能です。
リレーショナルデータベースとSQL(「構造化問い合わせ言語」(Structured Query Language)の略)が一般的なのは、データの連結やフィルタリング、変換、集約が容易だからです。しかし、SQLのようなクエリ言語では、実現できるグループ操作にある程度制約が生まれてしまいます。それに対して、この後見ていくようにPythonとpandasの表現力を使えば、各グループの紐付くデータを操作するカスタムPython関数として演算を表現できるため、より複雑なグループ操作が行えます。この章では、次に挙げる処理の実現方法を学びます。
| 時系列データの時間に基づく集約は、 ... |