
46 2 章 数学の基礎知識の準備
図 2 -13 歪んだデータ分布(左)は、軸を対数軸にするとベル型に近くなることが多い(右)
くなる。例えば、私は中流の上の専門職に属するが、私の資産の対数と貧しい私の学生の資産の対数の比率
は、ビル・ゲイツの資産の対数と私の資産の対数の比率とほぼ同じになる。
対数では効果が極端すぎ、それほど大きな効果の出ない平方根などの非対数変換を使った方が分布の正規
化に役立つ場合もある。目安は、変換後の値の度数分布を描いたときに、ほぼ対称的で中央に膨らみのある
ベル型になるかどうかである。そのような形が得られたときには、正しい関数が見つかったということだ。
2.5 私の体験談から:デザイナー遺伝子の適合
生
物統計学者とは、膨大な DNA シーケンスのコレクションからパターンを見つけ出す新しい学術分野を
研究する「データサイエンティスト」を表す生命科学用語である。DNA シーケンスデータは操作対象とし
て非常に面白く、ヒトゲノム計画の草創期以来、私はさまざまな研究プロジェクトで生物統計学者を務めて
きた。
DNA シーケンスは、{A, C, G, T} の 4 文字から成る文字列である。タンパク質は、我々の肉体のもとと
なる物質で、アミノ酸と呼ばれる 20 種類の分子を単位とする配列から構成されている。遺伝子は、特定の
タンパク質の合成方法を示す DNA シーケンスで、コドンと呼ばれる {A, C, G, T} の 3 つ組(トリプレッ
ト)を単位として成り立っている。
ここでは、特定のタン ...