
2.2 記述統計量 33
• 最頻値(モード):最頻値は、データセットの中で最も個数の多い要素のことである。このサイコロ
の例
では、36 個の要素のうちの 6 個を占める 7 がそれに当たる。率直に言って、私は最頻値が代表
値として大きな知見を提供してくれたと思ったことはない。そもそも、最頻値は中心に近くないこと
が多い。また、広い範囲で測定された標本で値が重複する(衝突する)要素を多数持つことはほとん
どない。そのため、最頻値は偶然の結果になってしまいがちだ。実際、最頻値は、分布の中の代表的
な要素を示すというよりも、デフォルト値やエラーコードといったデータセット内の特異値やノイ
ズ、データの誤りを表すことが多い。
度数分布(ヒストグラム)のピークという関連概念には意味があるが、注目に値するピークが現れる
のは、バケットの設け方が適切なときだけである。現在、アメリカ合衆国民の年間給与所得額のピー
クは 3 万ドルと 4 万ドルの間にあるが、最頻値は 0 だろう。
2.2.2 散らばりの尺度
散らばりの最も一般的な尺度は、標準偏差 σ であり、個々の要素と平均の差の 2 乗の合計の平方根として
計算できる。
σ =
v
u
u
u
u
t
n
X
i=1
(a
i
− ¯a)
2
n − 1
関連
する統計量、分散 V は標準偏差の 2 乗であり、V = σ
2
である。分散(variance)の方が、標準偏差
(standard deviation)よりも文字数が少ないので言いやすいかもしれないが、両者はまったく同じものを測っ
ている。
例とし ...