
10.1 距離の測定 283
デー
タセットの次元数を増やすということは、すべての座標軸が全体にとってそれほど重要ではないと
言っているのと同じだ。特徴空間で 2 つの点の距離を測定する上で、d が大きければ、2 つの点をもっと近
づける(または遠ざける)方法がいくつもある。1 次元を除いたすべての次元において、ほぼ同じことが言
えるであろう。
そのため、高次元データ空間で最も大切なのは、ノルムの選択である。もちろん、常に L
2
ノルムを使う
ことにしてもよい。L
2
は安全で標準的な選択肢である。しかし、多くの次元で近い点を高く評価したいな
ら、L
1
を選ぶ方がよい。それに対し、大きな差があるフィールドがなく、すべての点が同じようなものな
ら、L
∞
を選ぶ方がよい。
これについては、特徴に対してランダムに付随するノイズが気になるか、大きなデータの誤りとなる例外
的な事象が気になるかの違いだと考えることもできる。前者の場合、あらゆる次元のノイズが距離に積み重
なっていく L
1
は望ましくない。しかし、大きなデータの誤りが気になるなら、1 つの列で大きな誤差が生
まれると、それが距離計算全体に影響する L
∞
は不適切だろう。
今後の課題
自由
に最良のノルムを選択しよう。さまざまな距離関数がどのようにしてデータセット内の各点
の類似性を明らかにするかを評価するのである。
10.1.4 次元平等主義
L
k
ノルムは、いずれも暗黙のうちにすべての座標軸を平等に扱うが、必ずしも平等に扱う必要はない。
対象領域固有の知識として、事例の類似性についてある特徴が他の特徴よりも重要であることがわかってい ...