5章学習のためのリソースを収集する
ビジネスにおける知見を得るためには教師なし学習を用いますが、分類や回帰などの教師あり学習や推薦システムなどの性能を上げるためには、ラベル付きのデータやコーパス、辞書などより多くの良質なリソースが必要です。本章では、教師あり学習を行うために必要な、学習のためのリソースを収集する方法について解説します。
本番環境で使うための機械学習の教師データとして世の中に公開されている既存のデータセットを使おうとしても、自分たちと問題設定が異なるなどの理由で不十分なことがほとんどです。この章では、少し泥臭いですが重要な教師データの作り方について学びます。
5.1 学習のためのリソースの取得方法
教師あり学習に欠かせない教師データですが、そもそも教師データには何が含まれているのでしょうか。教師あり学習の教師データに含まれる情報には、大きく以下の2つがあります。
入力:アクセスログなどから抽出した特徴量
出力:分類ラベルや予測値
特徴量についての試行錯誤については前章に書きましたが、ヒューリスティックに判断をして追加する形になります。出力のラベルや値は以下のような方法で付与できます。
サービスの中にログ取得の仕組みを用意してそこから抽出する(完全に自動)
コンテンツなどを人が見て付与する(人力で行う)
機械的に情報を付与して、人手で確認する(自動+人力)
本章では、教師データを作るのは誰かという観点から説明を進めていきます。 ...
Get 仕事ではじめる機械学習 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.