Skip to Main Content
データサイエンス設計マニュアル
book

データサイエンス設計マニュアル

by Steven S. Skiena, 小野 陽子, 長尾 高弘
January 2020
Beginner to intermediate content levelBeginner to intermediate
728 pages
10h 26m
Japanese
O'Reilly Japan, Inc.
Content preview from データサイエンス設計マニュアル
10.5 クラスタリング 313
では
、これらの中で最もよいのはどれだろうか。いつものことだが、状況次第である。非常に大規模な
データセットでは、アルゴリズムの速度が最も大きな関心事であるので、適切なデータ構造のもとで最短距
離法または重心法を使うことになる。データセットの規模が中程度であれば、品質が最も大切になるので、
より頑健な方法が魅力的に見えるだろう。
10.5.3 クラスタリングの比較
同じデータセットに対して複数のクラスタリングアルゴリズムを試し、目的に最も合いそうなものを使う
のはあたり前のことだろう。別々のアルゴリズムであっても、それぞれが合理的なものであれば、両者が作
るクラスタリングは似たものになるはずだが、両者がどれくらい似ているかを正確に測定したいと思うこと
が多い。そこで、クラスタリングの類似度または距離の測定方法を確立する必要がある。
あらゆるクラスタは、点であってもレコードであっても、要素の部分集合によって定義される。集合 s
1
,
s
2
Jaccard 係数 J(s
1
, s
2
) は、積集合と和集合の割合と定義されている。
J(s
1
, s
2
) =
|s
1
s
2
|
|s
1
s
2
|
2 つの
集合の積集合は、和集合よりも大きくなることはないので、0 J(s
1
, s
2
) 1 である。Jaccard
数は、例えばある点の k 個の近傍点の類似度を 2 つのメトリックで比較したいときや、あるメトリックで上
位に入る要素が別のメトリックで上位に入る頻度を調べたいときなど、便利な測定方法である。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

オブザーバビリティ・エンジニアリング

オブザーバビリティ・エンジニアリング

Charity Majors, Liz Fong-Jones, George Miranda, 大谷 和紀, 山口 能迪
Python機械学習クックブック

Python機械学習クックブック

Chris Albon, 中田 秀基
PythonによるWebスクレイピング 第2版

PythonによるWebスクレイピング 第2版

Ryan Mitchell, 黒川 利明, 嶋田 健志

Publisher Resources

ISBN: 9784873118918Other