Skip to Main Content
データサイエンス設計マニュアル
book

データサイエンス設計マニュアル

by Steven S. Skiena, 小野 陽子, 長尾 高弘
January 2020
Beginner to intermediate content levelBeginner to intermediate
728 pages
10h 26m
Japanese
O'Reilly Japan, Inc.
Content preview from データサイエンス設計マニュアル
118 5 統計分析
けていくという形(「もうたくさん」モデル)で子どもの数をモデリングするのである。
のようなモデルでは、1 家庭の人数はポワソン分布でモデリングできるはずだ。毎日小さいけれども 0
ではない破局の確率があり、その破局によって子どもの数はそれ以上増えなくなるのである。
「もうたくさん」モデルは、家庭の人数の予測でどの程度うまく機能するだろうか。図 5 -6 の折れ線は、
パラメータ µ = 2.21 家庭の平均の子どもの数は 2.2 人)のポワソン分布を表す。点は、2010 年のアメリ
カ総合的社会調査(GSS)に基づく k 人の子どもがいる家庭の割合を表す。
このポワソン分布は、k = 1 を除くすべての家庭とぴったり符合している。そして、私の個人的な経験か
ら率直に言えば、1 人っ子はこのデータセットに現れている以上に多いはずだ。平均とポワソン分布の公式
を知っているだけで、実際の家庭の人数の分布をかなりいい線で推計できるのである。
5.1.5 べき乗則分布
正規分布やポワソン分布よりも長いテールを持つデータ分布はたくさんある。例えば、都市の人口につ
いて考えてみよう。Wikipedia によれば、2014 年の時点でアメリカには人口が 10 万人以上の都市が 297
る。図 5 -7(左)は、1 k 297 として、k 番目に大きな都市の人口を示している。これを見ると、比較的
少数の都市がその他の都市の大部分を圧倒するような大きな人口を抱えていることがわかる。実際 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

オブザーバビリティ・エンジニアリング

オブザーバビリティ・エンジニアリング

Charity Majors, Liz Fong-Jones, George Miranda, 大谷 和紀, 山口 能迪
Python機械学習クックブック

Python機械学習クックブック

Chris Albon, 中田 秀基
PythonによるWebスクレイピング 第2版

PythonによるWebスクレイピング 第2版

Ryan Mitchell, 黒川 利明, 嶋田 健志

Publisher Resources

ISBN: 9784873118918Other