
34 2 章 数学の基礎知識の準備
2.2.3 分散の解釈方法
ノイズや誤差のために、現象は同じでも測定結果は同じにならないという現象は、たびたび経験されるこ
とである。標本誤差は、平日と同じように週末のラッシュアワーの混雑を測定するなど、代表的とは言えな
いよ
うな状況が観測値に含まれているときに起こる。それに対し、測定誤差は、検査装置の検出限界を反
映したものである。信号対雑音比(SN 比)の概念は、一連の観測値が、データの分散ではなく、本当の量
(Quantity of Interest:QoI)をどの程度反映しているかを表す。我々データサイエンティストはノイズでは
なく信号の変化を知りたいが、観測結果には分散が入るため、信号の変化を正しくつかむのは非常に難しく
なることが多い。
私は、ばらつきがあることは、光速度やお金の価値が時間とともに変化するのと同じように宇宙の本質的
な性質だと考えている。毎朝、体重計に乗るとその値は一定ではないが、それは、体重の変化(実際の変化)
だけでなく、最後に食べたもの(標本誤差)、床の傾きや体重計の使用年数(測定誤差)なども反映したもの
である。では、本当の体重はいくつなのだろうか。
あらゆる測定値は必ずある程度のばらつきの影響を受けるが、現象はそれよりもはるかに大きくばらつき
の影響を受ける。世界で起こることの多くはランダムな変動や偶然のできごとであり、状況に変わりはなく
ても、それらがばらつきを作り出してしまう。データサイエンティストは、データを使って世界を説明しよ ...