
10.7 さらなる探求のために 317
これは期待した通りの効果を発揮した。彼らは私の要求が妥当なものであり、問題解決には問題の診断が
必要であることをすぐに認め、ただちに仕事に取り掛かると言ったものの(これは開発の側で行うべき仕事
であ
ったので)、彼らも忙しくてそれどころではなかった。だから、彼らからは返事はなかったおかげで、
サバティカルの残りの期間を平和のうちに有意義に過ごすことができた。
数か月後、Amanda から開発担当者たちとの再度のやり取りについての話を聞いた。クラスタリングモ
ジュールは、見出しで使われている単語しか特徴として使っていなかったため、記事本文の内容をまったく
無視していることに気付いたというのだ。これはアルゴリズム自体の問題ではなく、特徴の問題だ。そし
て、従来よりも内容が豊富な特徴セットを与えるようにしたら、クラスタリングモジュールはずっと良い結
果を残すようになったそうだ。
この話から学ぶべきことは何だろうか。人は自分の限界を知らなければならないし、クラスタリングアル
ゴリズムの限界も知らなければならない。今すぐ Google News のページにアクセスして、記事のクラスタ
を丹念に検討してみてほしい。あなたに判断できる目があれば、いくつか小さな誤りに気付くだろうし、本
当にまずいものまで発見するかもしれない。しかし、もっと驚くべきことは、大きな目で見ればクラスタリ
ングアルゴリズムが非常にうまく機能していることだ。アルゴリズムの力で数千ものソースから重複のない
役に ...