4章初期データセットの取得

製品のニーズを解決する計画を立て、初期プロトタイプを構築し、考案したワークフローとモデルが健全であることを検証したら、次はデータセットを深く掘り下げてみましょう。見つけた情報は、モデリングの決定に利用します。多くの場合、データを十分に理解すると、パフォーマンスが大幅に向上します。

この章では、まずデータセットの品質を効率的に判断する方法から始めます。次に、データをベクトル化する方法と、そのベクトル化された表現を使用して、データセットのラベル付けと検査をより効率的に行う方法について説明します。最後に、この検査がどのようにして特徴量生成戦略の指針となるかを説明します。

まずはデータセットを探し出し、その品質を判断することから始めましょう。

4.1 データセットの反復処理

ML製品を素早く構築するためには、モデル構築と評価を迅速に反復します。データセットはモデルを成功させるための核です。そのため、データの収集、準備、ラベル付けは、モデリングと同様に反復プロセスと考えるべきです。すぐに収集できる簡単なデータセットから始めて、学習した内容に基づいて改善させましょう。

このようなデータへの反復的なアプローチは、最初は混乱するように思えるかもしれません。MLの研究では、コミュニティがベンチマークとして使用する標準的なデータセットを使って論文が作成されることが多いため、データセットは不変的です。また、従来のソフトウェア工学では、決定論的なルールをプログラムとして書き、データは受信、処理、保存するものとして扱います。

MLエンジニアリングは、エンジニアリングとMLを組み合わせて製品を構築します。そのため、データセットは製品を作るためのツールの1つにすぎません。MLエンジニアリングでは、初期のデータセットを選択し、定期的に更新し、それを補強することが ...

Get 機械学習による実用アプリケーション構築 ―事例を通じて学ぶ、設計から本番稼働までのプロセス now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.