
335
5
章
機械学習
多くの場合、データサイエンスは機械学習という形で現実世界の問題を扱います。データサイエ
ンスの計算技術およびアルゴリズムに関するスキルと、統計的思考が融合する場所が機械学習で
す。その結果、推論やデータ探索に関するさまざまなアプローチが生み出されましたが、それらは
効率的な理論ほどには効率的な計算技術を伴いません。
「機械学習」という言葉は一種の魔法のように扱われ、機械学習を手持ちのデータに適用すれば、
あらゆる問題が解決されるかのごとく喧伝されています。すぐにわかるように、現実はそれほど単
純ではありません。こうした手法は信じられないほど強力ですが、効果的に活用するためには、そ
れぞれの長所と短所を徹底的に把握した上で、バイアス
-
バリアンス、過学習と未学習などの一般
的な概念を把握する必要があります。
この章では、主に
Python
の
scikit-learn
パッケージ(
http://scik
it-learn.org
)を使用して、機械学
習の実践的な側面を説明します。これは機械学習分野を包括的に紹介したものではありません。機
械学習はテーマとしては巨大であり、本書で行ったよりもずっと高度に技術的なアプローチが必要
となります。また、本章は
scikit-learn
パッケージ(これについては、「5.15 機械学習をさらに学
ぶためのリソース」を参照してください)を使用するための包括的マニュアルでもありません。む
しろ、この章は以下の項目を目的としています。
●
機械学習の基本的な語彙と概念を紹介する ...