October 2025
Intermediate to advanced
328 pages
3h 56m
Japanese
5章では、二項分布、ポアソン分布、指数分布、正規分布などの理論的分布を使ってデータをモデル化しました。
二項分布とポアソン分布は離散分布であり、これは結果が整数の、ヒット数とミス数、得点のように、とびとびの要素であることが必要であることを意味しています。離散分布では、各結果は確率質量が対応しています。
指数分布と正規分布は、連続的な分布であり、これは結果が可能な値の範囲内のどの点にもなり得ることを意味します。連続分布では、各結果は確率密度に関連付けられています。確率密度は抽象的な概念で、多くの人にとって最初は難しいと感じますが、一歩ずつ進めていきましょう。最初のステップとして、分布の比較についてもう一度考えてみましょう。
5章では、離散分布を比較するとき、それらの確率質量関数(PMF)を示すために棒グラフを使いました。連続分布を比較するときは、それらの累積分布関数(CDF)を示すために折れ線グラフを使いました。
離散分布については、CDFを使うこともできます。例えば、lam=2.2のポアソン分布のPMFは、NSFGデータにおける世帯人数の分布をよく表しているモデルです。
read_fem_respを使って回答者データファイルを読み込みます。
from nsfg import read_fem_respresp = read_fem_resp()
次に、25歳以上の世帯人数を選びます。
older = resp.query("age >= 25")num_family = older["numfmhh"]
そして、回答者の分布を表すPmfを作成します。
from empiricaldist import Pmfpmf_family ...
Read now
Unlock full access