December 2025
Intermediate to advanced
468 pages
7h 58m
Japanese
データの要約と集約は、未加工のデータセットから意味のある洞察を得るための重要なステップだ。販売データであれ、顧客情報であれ、センサーデータであれ、グループ化して集約することで、重要な疑問に答えたり、明らかではなかった傾向を特定したりすることができる。
以下のような疑問を持つことがあるだろう。
まさにこうした種類の疑問に役立つのが集約だ。1つまたは複数の列に基づいてデータをグループ化し、合計、平均値、カウントなどの計算を実行することで、データセットの根本的なパターンをより明確に理解できる。
Polarsでは、df.group_by()メソッドにより、このプロセスをシンプルかつ効率的に行うことができる。このメソッドを用いると、1つまたは複数の列とエクスプレッションでDataFrameをグループ化できる。データのグループ化ができれば、さまざまな集約関数を適用して結果を要約することができる。例えば、各グループの合計、平均値、中央値の計算や、各グループの行数カウントなどだ。
本章では、以下のことを学ぶ。
df.group_by_dynamic()、df.rolling()、Expr.over()を用いる。必要なファイルを入手する手順は「2章 Polarsを使い始める」で説明している。ここでは、dataサブディレクトリにファイルがあると仮定する。
グループ化と集約の中心にあるのは、分割、適用、結合の3つの概念だ。これらは、データのグループに対して操作を実行する強力な戦略だ。それぞれの動作を説明しよう。 ...
Read now
Unlock full access