
66 3 章 データマンジング
図 3 -3 クリーニング後のデータからはデータの誤りが取り除かれ、得られた分布は正しいものに見える
研
究対象から外されてしまったのだ。同じことが分布の右端の人々にも言える。2010 年の科学界の新人
は、ほんの数年では研究者としての一生分の仕事ができるわけではない。これらのことは、イニシャルから
ファーストネームへの変更によって説明できる。
名前の統一というこのデータのクリーニングは、データが正しくなるまで数回繰り返す必要があった。
2002 年のピークが消えたあとも、1990 年代半ばにキャリアをスタートさせた著名な科学者の数には大きな
落ち込みが見られた。これは、ファーストネーム追加以前にすばらしいキャリアを重ね、ファーストネーム
追加後にも優れたキャリアを重ねながら、それぞれだけではどちらかの時代ですばらしい業績を上げた人々
の論文数に及ばない人々が多数いるからである。つまり、上位 10 万人の科学者を選ぶ前に、名前の照合を
しなければならなかったのである。
図 3 -3 は、最終的に得られた著者の分布である。我々が最初に理論的に予想した分布に一致している。コ
ンピュータから生成されたデータが特異な形に見えるからと言って、それを簡単に合理化しないように注意
しなければならない。私の共同研究者たちは一時期、2002 年のピークを研究費の上昇や新しい科学雑誌の
創刊によるものと片付けるつもりになっていた。データが信頼できるだけクリーンになっているかどうか、
常に疑いの目で見るようにしなければならない。 ...