
72 3 章 データマンジング
いが、実は目的はそこにある。無作為な値を繰り返し選択すると、補定の影響を統計学的に評価でき
る。
10 種類の異なる補定値でモデルを 10 回実行して結果が大きく異なるなら、おそらくそのモデ
ルにはあまり信頼を置けない。データセットにかなりの割合の欠損値があるときには、この正確度
チェックが特に役に立つ。
• 最近傍レコードによる補定:存在するすべてのフィールドから判断して最も近く、欠損値のないレ
コードが特定できる場合、この最近傍レコードを使って欠損値を推定してはどうだろうか。レコード
間の分散が系統的な理由から説明できる場合、この方法による予想は平均よりも正確になるはずだ。
この方法では、最も近いレコードを見つけるために距離関数が必要になる。データサイエンスでは、
最近傍法は重要な技法であり、10.2 節で詳しく説明する。
• 補間による補定:より一般的に、線形回帰(9.1 節参照)などの方法を使えば、レコード内の他の
フィールドからターゲットフィールドの値を予測することができる。そのようなモデルはレコード全
体で訓練し、欠損値を持つレコードに適用する。
線形回帰を使った欠損値の予測は、欠損値を持つフィールドがレコードに 1 つしかないときに最も効
果的になる。ただ、雑な予測によって有意な外れ値を作ってしまう危険性がある。回帰モデルは、簡
単に異常に高い値や低い値を欠損フィールドに埋め込み、不完全レコードを外れ値にしてしまう。こ
れでは、下流の分析では、欠損値を持つレコードにより ...