7章集約:最大、最小、その他データの性質を表すもの
データに対峙した際、最初に行うのはデータの要約統計量の計算です。おそらく、最も一般的な要約統計量は平均値と標準偏差です。これらはデータセットの「典型的な」値の知識を与えてくれますが、その他の集計値も同様に有用です(合計、積、中央値、最小値、最大値、分位数など)。
NumPyは、配列の集計値を高速に計算する組み込み関数を提供しています。ここでは、その使用例をいくつか示します。
7.1 配列の合計
簡単な例として、配列内の全要素を合計します。Pythonの組み込みsum
関数で計算できます。
In [1]: import numpy as np rng = np.random.default_rng() In [2]: L = rng.random(100) sum(L) Out[2]: 52.76825337322368
NumPyのsum
関数も同じ構文で使えます。単純なケースでは、値も同じになります。
In [3]: np.sum(L) Out[3]: 52.76825337322366
しかし、コンパイルされたコードで行われるため、NumPyの演算はずっと高速です。
In [4]: big_array = rng.random(1000000) %timeit sum(big_array) %timeit np.sum(big_array) Out[4]: 89.9 ms ± 233 μs per loop (mean ± std. dev. of 7 runs, 10 loops each) 521 μs ± 8.37 μs per loop (mean ± std. dev. of 7 runs, 1000 loops ...
Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.