20章集約とグループ化
効率的な要約は、多くのデータ分析作業における基本です。すなわち、巨大なデータセットの何らかの側面を1つの値で表すsum
(合計)、mean
(平均値)、median
(中央値)、min
(最小値)、max
(最大値)などの集約値の計算です。この章では、NumPy配列で行った単純な操作から、groupby
の概念に基づくより洗練された操作まで、pandasの集約について説明します。
便宜上、前の章で使用したDisplay
クラスを再利用します。
In [1]: import numpy as np import pandas as pd class Display: """HTML表現で複数オブジェクトを表示する""" template = """<div style="float: left; padding: 10px;"> <p style='font-family:"Courier New", Courier, monospace'>{0}{1} """ def __init__(self, *args): self.args = args def _repr_html_(self): return '\n'.join(self.template.format(a, eval(a)._repr_html_()) for a in self.args) def __repr__(self): return '\n\n'.join(a + '\n' + repr(eval(a)) for a in self.args)
20.1 惑星(planets)データ
ここでは、seabornパッケージ(https://seaborn.pydata.org/)の一部として入手できるplanetsデータセットを使用します( ...
Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.