October 2025
Intermediate to advanced
328 pages
3h 56m
Japanese
本書では、シミュレーションやリサンプリングのような計算手法に焦点を当ててきましたが、私たちが解いた問題の中には、より高速に計算できる解析解を持つものもあります。
この章では、これらの手法を紹介し、それらがどのように機能するかを説明します。章の終わりには、データ分析のための計算手法と分析手法を統合するための提案をします。
多くの分析手法は、正規分布の性質に基づいています。その理由は2つあります。現実世界の多くの測定値の分布は正規分布でよく近似されること、そして正規分布は分析に有用な数学的特性を持っているからです。
最初の点を実証するために、ペンギンデータセットの測定値をいくつか見てみましょう。そして、正規分布の数学的特性を調べます。データのダウンロード方法は14章のノートブック(chap14.ipynb)で説明しています。
以下のようにして、データを読み込むことができます。
penguins = pd.read_csv("penguins_raw.csv")penguins.shape
(344, 17)
データセットには3種のペンギンの観測値が含まれています。この例ではアデリーペンギンを選択します。
adelie = penguins.query('Species.str.startswith("Adelie")').copy()len(adelie)
152
ペンギンの体重が正規分布に従うかどうかを確認するため、データの経験的CDFを計算します。
from empiricaldist import Cdfweights = adelie["Body Mass (g)"].dropna()cdf_weights ...
Read now
Unlock full access