20章集約とグループ化

効率的な要約は、多くのデータ分析作業における基本です。すなわち、巨大なデータセットの何らかの側面を1つの値で表すsum(合計)、mean(平均値)、median(中央値)、min(最小値)、max(最大値)などの集約値の計算です。この章では、NumPy配列で行った単純な操作から、groupbyの概念に基づくより洗練された操作まで、pandasの集約について説明します。

便宜上、前の章で使用したDisplayクラスを再利用します。

In [1]: import numpy as np
        import pandas as pd

        class Display:
            """HTML表現で複数オブジェクトを表示する"""
            template = """<div style="float: left; padding: 10px;">
            <p style='font-family:"Courier New", Courier, monospace'>{0}{1}
            """
            def __init__(self, *args):
                self.args = args

            def _repr_html_(self):
                return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                                 for a in self.args)

            def __repr__(self):
                return '\n\n'.join(a + '\n' + repr(eval(a))
                                   for a in self.args)

20.1 惑星(planets)データ

ここでは、seabornパッケージ(https://seaborn.pydata.org/)の一部として入手できるplanetsデータセットを使用します( ...

Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.