
178 6 章 データの可視化
図 6 -30 単語の出現頻度の順位を示す散布図。一体何がわかるのだろうか
図 6 -31 1 万
個の英単語の度数分布。頻度を対数スケールにするか(左)、両対数スケールを使えば(右、
こちらの方がさらによい)、分布がべき乗則に従っていることがわかる
よい。両対数スケールで直線になるということは、間違いなくべき乗則分布に従っていることを意味する。
6.5.2 分散の過剰解釈
バイオインフォマティクスは、データから生命の仕組みを解き明かそうとする科学である。図 6 -32(左)
は、遺伝子のフォールディングエネルギーを遺伝子の長さの関数として表したグラフである。グラフから、
何か発見できることがあるだろうか。
何かが起きていることは明らかだ。遺伝子の長さが 1,500 を超えると、グラフは乱高下を繰り返し、非常
に絶対値の大きなマイナス値が現れるようになる。遺伝子の長さによってエネルギーが逆に振れることがわ
かったのだろうか。
そうではない。単に分散を過剰解釈していただけだ。最初の手がかりは、非常に堅実にスタートしていた
ように見えるグラフが、遺伝子の長さが長くなるとともにおかしな動きになるのだ。ほとんどの遺伝子は、
長さが非常に短い。そのため、左のグラフの右端近くは、ごく少数のデータをもとに描かれている。少数の
点の平均は、多数の点の平均のようには信用できない。実際、遺伝子の長さ別の個数をグラフにすると(右