
288 10 章 ネットワーク分析と距離
https://www.baseball-reference.com に
はいつも刺激を受ける。この似た選手のリストはとても示唆
に富んでおり、挙げられたプレーヤーたちは同じようなスタイルで同じような役割を果たしていることが多
く、記録を見ただけでそれを捉えることは難しいはずなのだが、実際に記録から導き出されているのだ。
本、映画、音楽など、あなたが興味のある別の分野で同じようなことを試してみてほしい。
今後の課題
あなたがよく知っていることについて、それと類似した(近い)データセットを 10 個挙げてみ
よう。この 10 個のデータセットから、あなたがよく知っているデータセットの長所と短所がよ
くわかる。高次元データセットを扱う際には、まず最初に対象に類似したデータセットを可視化
してみると、対象がよくわかるだろう。
10.2.2 k 近傍法
最近傍法は、与えられた点 q を分類するために、q に最も近いラベル付きの点 q
′
のラベルを返してくる。
これは、特徴空間で似ているものはラベル空間でも似ているとみなされるならば、合理的な仮説である。し
かし、この方法は、1 個の訓練データだけに基づいて分類を決めてしまう。この決め方では問題があるとい
うことを理解してほしい。
1 個ではなく、複数の近傍点からの投票による分類、補間の方が頑健である。点に最も近いものから k 個
の点を見つけたとする(k は一般に 3 から 50 ほどで、n の大きさによって決まる)。ラベル付きの点の配置 ...