8章おわりに

ここまで読んだ読者は、重要な教師あり学習および教師なし学習の機械学習アルゴリズムの使い方がわかり、さまざまな機械学習問題を解くことができるようになっているはずだ。機械学習で可能になるさまざまな問題に向けて読者を送り出す前に、最後のアドバイスを贈りたい。さらに学習を続けるのに役立つリソースを紹介し、読者の機械学習およびデータサイエンス技術を磨く方法を提案したい。

8.1 機械学習問題へのアプローチ

本書で説明したさまざまな手法を学んだ今、手元にあるデータが関連する問題に対して、すぐにでも好みのアルゴリズムを試してみたくなったことだろう。しかし、解析を始める上でこれは一般にあまりよい方法ではない。機械学習アルゴリズムは、大きなデータ解析と意思決定過程のごく一部でしかない。機械学習を有効に活用するには、一歩下がって、問題を大きく捉えることが重要だ。まず、どのような問題に答えようとしているのかを考えよう。データに何か面白い点がないか、探索的な解析で見ようとしているのだろうか?それとも、何か特定のゴールがあるのだろうか?多くの場合には、例えば不正なユーザトランザクションを検出するとか、映画の推薦を行うとか、未知の惑星を見つけるとか、何らかのゴールがあるだろう。そのようなゴールがあるなら、それを実現するシステムを作る前に、成功を測る基準をどう設定するか、成功した場合にビジネスもしくは研究の目的全体にとってどのような影響があるかを考えよう。例えば不正トランザクションの検出が目的だとしてみよう。

すると次の疑問が生じる。

  • 不正の検出が実際にできているかをどのように測定するか?
  • アルゴリズムを評価するためのデータがあるだろうか?
  • 成功したとして、ビジネスへの影響はどの程度だろうか? ...

Get Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.