9章バック・トゥ・ザ・「フィーチャー」:学術論文レコメンドアルゴリズムの構築
数学では物事を理解しない。慣れるだけなのだ。
――ジョン・フォン・ノイマン
図1-1でデータを得てから結果を示すまでの道のりを示したように、データ解析をどう進めるべきかには明確な道標があるわけではありません。本書ではこれまで、整理されたシンプルなデータセットと簡単なモデルを使って、基本的な特徴量エンジニアリングのテクニックを紹介してきました。これらの例は、読者の理解が深まり、かつ有意義なものとなるよう意図されたものでした。
機械学習の実践例では一般的に、ベストな結果が得られるようなシナリオに基づいてその結果が示されます。このような例では、ここまで本書で解説してきた実践的な特徴量エンジニアリングの方法が活かされません。しかし基礎固めが終わった今、ここからは単純なトイデータを使った例には別れを告げて、実世界の構造化されたデータセットに対し、特徴量エンジニアリングのプロセスを実行していきましょう。それぞれの解析ステップを進めるごとに、特徴量を含む生データや、変形した特徴量がどのようにモデルに作用するかを見ていきます。また、解析の中で特徴量エンジニアリングがどのようなトレードオフを起こすかについても調べていきます。
はじめにはっきりさせておきますが、本章の例における目標はデータセットに対する最良のモデルを構築することではありません。本章では、ここまでに身につけた技術の一部を実際のデータに適用するだけでなく、それぞれの特徴量エンジニアリングのテクニックが構築中のモデルにどんな影響を与えているかをより深く検討/理解する方法について解説します。
9.1 アイテムベースの協調フィルタリング
本章ではMicrosoft ...
Get 機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.