
279
10 章
ネットワーク分析と距離
尺度が目標になると、その尺度は役に立たない。
— チャールズ・グッドハート「グッドハートの法則」
n × d のデ
ータ行列は、d 個の特徴を列として、また、n 個の事例を行とする行列であり、自然に d 次元
空間内の n 個の点集合とみなすことができる。宇宙の星のように事例を空間内の点と解釈すると、事例が理
解しやすいだろう。太陽に最も近い恒星、つまり最近傍の恒星は何だろうか。データのクラスタは、恒星の
集まりである銀河である。太陽と天の川を共有するのはどの恒星だろうか。
空間内の点の集合とネットワークの中の頂点には密接な関係がある。近くにある 2 つの点を辺で結ぶこと
により、幾何学的な点の集合からネットワークを構築することができる。逆に、ネットワークの頂点を、隣
接点が近くなるように座標空間の点として埋め込むこともある。この場合は頂点を空間内に配置し、接続す
る頂点の対は空間内の近くに配置する。
最近傍分類やクラスタリングなど、幾何学的データについての重要な問題の一部は、すぐにネットワーク
データに一般化することができる。そこで、この章では距離とネットワークについて並行して取り上げ、両
者の相乗効果を最大限に引き出す。
10.1 距離の測定
d 次元幾何空間内の点 p と q に関する問題の中でも最も基本的なものは、2 点の距離の測定方法である。
ユークリッド距離は、次のように定義される。
d(p, q) =
v
u
u
t
d
X
i=1
|p
i
− q
i
|
2
しかし、ほかにも考慮すべき合理的な距離概念はある。そもそも、距離とは何だろうか。距離とスコアリ ...