Skip to Content
機械学習のためのトレーニングデータ
book

機械学習のためのトレーニングデータ

by Anthony Sarkis
May 2025
Beginner to intermediate
332 pages
4h 48m
Japanese
O'Reilly Media, Inc.
Book available
Content preview from 機械学習のためのトレーニングデータ

第1章. トレーニング・データの紹介

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

データは私たちの身の回りにあふれている-動画、画像、テキスト、文書、そして地理空間データ、多次元データなどなど。しかし、生のままでは、これらのデータは教師あり機械学習(ML)や 人工知能(AI)にはほとんど役に立たない。どうすればこのデータを活用できるのか?MLやAIで再現できるように、どのようにインテリジェンスを記録するのか?その答えは、データを訓練する技術、つまり生データを有用なものにする学問である。

この本であなたは学ぶだろう:

  • すべて新しいトレーニングデータ(AIデータ)の概念

  • トレーニングデータの日々の実践

  • トレーニングデータの効率を上げるには

  • チームをAI/ML中心に変革する方法

  • 実際のケーススタディ

これらの概念のいくつかをカバーする前に、まず基礎を理解しなければならない。

トレーニング・データとは、生データを新しい形に成形、改質、整形、消化することであり、問題を解決するために生データから新しい意味を作成することである。このような創造と破壊の引数は、主題の専門知識、ビジネスニーズ、、技術的要件の積集合に位置する。複数の領域を横断する多様な活動である。

これらの活動の中心にあるのがアノテーションである。アノテーションは、、機械学習モデルによって消費される準備が整った構造化データを作り出す。アノテーションがなければ、生データは構造化されておらず、通常は価値が低く、教師あり学習にユーザビリティがないことが多い。そのため、コンピュータ・ビジョン、自然言語処理、音声認識などの最新の機械学習のユースケースには、トレーニング・データが必要となる。

この考えを例で固めるために、アノテーションについて詳しく考えてみよう。データに注釈をつけるとき、私たちは人間の知識を取り込むことになる。画像、テキスト、ビデオ、3Dデザイン、オーディオなどのメディアが、あらかじめ定義されたオプション(ラベル)のセットとともに提示される。人間がメディアをレビューし、最も適切な答えを決定する。例えば、画像のある領域を "good "または "bad "と宣言する。このラベルは、機械学習の概念を適用するために必要なコンテキストを提供する(図1-1)。

しかし、どうやってそこにたどり着いたのか?適切なメディア要素を、適切な事前定義されたセットで、適切な人に、適切なタイミングで見せるというところまで、どうやってたどり着いたのだろうか?アノテーション、つまりナレッジ・キャプチャーが実際に起こる瞬間に至るまで、そしてその瞬間に続くまでには、多くの概念がある。これらの概念を総称して、トレーニング・データと呼ぶ。

The training data process
図1-1. トレーニングデータのプロセス

この章では、トレーニングデータとは何か、なぜ重要なのかを紹介し、本書の残りの部分のベースとなる多くの重要な概念に飛び込む。

トレーニングデータのインテント

トレーニングデータの目的は、ユースケース、問題、シナリオによって異なる。例えば、トレーニングデータで何ができるのか?トレーニングデータは何に最も関係しているのか?人々はトレーニングデータで何を達成しようとしているのか? ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

機械学習ポケットリファレンス

機械学習ポケットリファレンス

Matt Harrison
ユーザーストーリーマッピング

ユーザーストーリーマッピング

Jeff Patton, 川口 恭伸, 長尾 高弘

Publisher Resources

ISBN: 9798341651234