第1章. トレーニング・データの紹介
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
データは私たちの身の回りにあふれている-動画、画像、テキスト、文書、そして地理空間データ、多次元データなどなど。しかし、生のままでは、これらのデータは教師あり機械学習(ML)や 人工知能(AI)にはほとんど役に立たない。どうすればこのデータを活用できるのか?MLやAIで再現できるように、どのようにインテリジェンスを記録するのか?その答えは、データを訓練する技術、つまり生データを有用なものにする学問である。
この本であなたは学ぶだろう:
-
すべて新しいトレーニングデータ(AIデータ)の概念
-
トレーニングデータの日々の実践
-
トレーニングデータの効率を上げるには
-
チームをAI/ML中心に変革する方法
-
実際のケーススタディ
これらの概念のいくつかをカバーする前に、まず基礎を理解しなければならない。
トレーニング・データとは、生データを新しい形に成形、改質、整形、消化することであり、問題を解決するために生データから新しい意味を作成することである。このような創造と破壊の引数は、主題の専門知識、ビジネスニーズ、、技術的要件の積集合に位置する。複数の領域を横断する多様な活動である。
これらの活動の中心にあるのがアノテーションである。アノテーションは、、機械学習モデルによって消費される準備が整った構造化データを作り出す。アノテーションがなければ、生データは構造化されておらず、通常は価値が低く、教師あり学習にユーザビリティがないことが多い。そのため、コンピュータ・ビジョン、自然言語処理、音声認識などの最新の機械学習のユースケースには、トレーニング・データが必要となる。
この考えを例で固めるために、アノテーションについて詳しく考えてみよう。データに注釈をつけるとき、私たちは人間の知識を取り込むことになる。画像、テキスト、ビデオ、3Dデザイン、オーディオなどのメディアが、あらかじめ定義されたオプション(ラベル)のセットとともに提示される。人間がメディアをレビューし、最も適切な答えを決定する。例えば、画像のある領域を "good "または "bad "と宣言する。このラベルは、機械学習の概念を適用するために必要なコンテキストを提供する(図1-1)。
しかし、どうやってそこにたどり着いたのか?適切なメディア要素を、適切な事前定義されたセットで、適切な人に、適切なタイミングで見せるというところまで、どうやってたどり着いたのだろうか?アノテーション、つまりナレッジ・キャプチャーが実際に起こる瞬間に至るまで、そしてその瞬間に続くまでには、多くの概念がある。これらの概念を総称して、トレーニング・データと呼ぶ。
図1-1. トレーニングデータのプロセス
この章では、トレーニングデータとは何か、なぜ重要なのかを紹介し、本書の残りの部分のベースとなる多くの重要な概念に飛び込む。
トレーニングデータのインテント
トレーニングデータの目的は、ユースケース、問題、シナリオによって異なる。例えば、トレーニングデータで何ができるのか?トレーニングデータは何に最も関係しているのか?人々はトレーニングデータで何を達成しようとしているのか? ...