
284 10 章 ネットワーク分析と距離
ての
座標軸が最初から正規分布に従っていればの話だが、こうすればすべての次元の x
i
の期待値は 0 にな
り、データの広がりは厳しく制限される。特定の次元が、例えばべき乗則分布に従っている場合には、もっ
と細かい作業が必要になる。正規化や、Z スコアを計算する前に対数を計算してみるなどの正規化技法につ
いては、4.3 節を読み直してほしい。
今後の課題
次元ごとに重みを付けたノルムは、データを適切に正規化していないことを隠すために使われる
ことが多い。この罠に陥ってはならない。距離を計算するときには、もとの値を Z スコアに置き
換え、すべての次元が結果に平等に影響を与えるようにしよう。
10.1.5 点とベクトル
ベクトルと点は、どちらも数値の配列によって定義されるが、特徴空間内の事例の表現という意味では概
念的にまったく異なる。ベクトルは大きさから方向を切り離しており、そのため単位球面上の点を定義して
いると考えることができる。
なぜこれが重要なのかは、単語–トピック(話題)数に基づいて最近傍記事を探す問題について考えてみ
ればわかるだろう。英語の語彙をトピックに基づいて n 個の部分集合に分割し、個々の単語はどれか 1 つ
のトピックに属するようにしたとする。すると、個々の記事 A は Bag-of-Words、つまり n 次元空間内の点
p として表すことができる。ここで p
i
は、記事 A に含まれるトピック i の単語の数である。
アメリカンフットボールについての長い記事と短い記事の距離を近いものと判定したいなら、ベクトルの ...