October 2025
Intermediate to advanced
328 pages
3h 56m
Japanese
この章では、統計学の最も基本的な考え方の1つである分布を紹介します。まず度数分布表(データセット中の値とそれぞれの値の出現回数を表す表)から始め、それを使って「家族の成長に関する全国調査(NSFG)」のデータを調べます。また、外れ値と呼ばれる極端な値や誤った値を探し、その扱い方を考えます。
変数を表現する1つの方法として、変数の値とその度数、つまり各値が現れる回数を含む度数分布表があります。これは変数の分布と呼ばれます。
分布を表現するには、empiricaldistと呼ばれるライブラリを使います。ここでの「empirical(経験的)」とは、分布が数学的モデルではなくデータに基づいていることを意味します。empiricaldistにはFreqTabというクラスがあり、これを使って度数分布表の計算やプロットができます。これは以下のようにインポートします
from empiricaldist import FreqTab
どのように動作するかを示すために、小さな値のリストから始めることにします。
t = [1.0, 2.0, 2.0, 3.0, 5.0]
FreqTabには、from_seqメソッドがあります。このメソッドはシーケンスを受け取り、FreqTabオブジェクトを作ります。
ftab = FreqTab.from_seq(t)ftab
| 度数 | |
|---|---|
| 1.0 | 1 |
| 2.0 | 2 |
| 3.0 | 1 |
| 5.0 | 1 |
FreqTabオブジェクトはPandasのSeriesの一種で、オブジェクトとその度数を含んでいます。この例では、値1.0は度数1に対応し、値2.0は度数2に対応しています。
FreqTabには、度数分布表を棒グラフとしてプロットする ...
Read now
Unlock full access