book

機械学習のためのトレーニングデータ

by Anthony Sarkis

May 2025

Beginner to intermediate

332 pages

4h 48m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

誰がこの本を読むべきか？テクニカル・プロフェッショナルおよびエンジニア向けマネージャーおよびディレクター向け主題専門家およびデータ注釈専門家向けデータサイエンティストこの本を書いた理由本書の構成テーマ基礎と始め方概念と理論すべてをまとめる本書で使用されている慣例オライリー・オンライン・ラーニング問い合わせ先謝辞
トレーニングデータのインテントトレーニングデータで何ができるか？トレーニングデータは何に最も関心があるのか？トレーニングデータの機会ビジネスの変革トレーニングデータの効率金型製作能力プロセス改善の機会なぜトレーニングデータが重要なのかMLアプリケーションは主流になりつつある成功するAIの基礎トレーニング・データはここにとどまるトレーニングデータがMLプログラミングを制御する新しいタイプのユーザ野生のトレーニングデータ何がトレーニングデータを難しくしているのか？マシンを監督する技術データ・サイエンスの新機軸MLプログラムのエコシステムデータ中心のマシンラーニング失敗例トレーニングデータにも影響するトレーニングデータとは何か生成AI人間のアライメントは人間の監督である概要
はじめに立ち上げと実行インストールタスク設定アノテーターのセットアップデータ設定ワークフロー設定データカタログのセットアップ初期化最適化ツール概要マシン学習のためのトレーニングデータ増え続けるツール人、プロセス、データ埋め込み型監督ヒューマン・コンピューター監督エンド・コンサーンの分離規格多くのペルソナ機械学習ソフトウェアを提供するパラダイムトレードオフ費用インストール型とサービスとしてのソフトウェアの比較開発システムスケール設置オプション注釈インタフェースモデリング・インテグレーションマルチユーザとシングルユーザのシステム比較統合スコープ隠された前提セキュリティオープンソースとクローズドソース歴史オープンソース規格専用工具の必要性を認識する概要
スキーマ・ディープ・ダイブ入門ラベルと属性-それは何か？我々は何に関心があるのか？ラベルの紹介属性紹介属性の複雑さが空間的複雑さを上回る技術的概要空間表現はどこにあるのか？ソーシャル・バイアスを防ぐために空間タイプを使うタイプとのトレードオフコンピュータビジョン空間タイプの例関係、シーケンス、時系列：いつなのか？シーケンスと関係性いつガイドと指示ジャッジメントコール機械学習タスクと学習データの関係セマンティック・セグメンテーション画像の分類（タグ）オブジェクト検出ポーズ推定タスクとトレーニングデータ型の関係一般化概念インスタンス概念の再確認時間の経過とともにデータをアップグレードするモデリングとトレーニングデータの境界線生データの概念概要
はじめに誰がデータを欲しがっているのか？電話ゲーム優れたシステムを計画するナイーブアプローチとトレーニングデータ中心アプローチ生データ保管参考値または金額既製の専用トレーニング・データ・ツールを自社ハードウェアで利用できるデータ保管：データはどこに保管されるのか？外部リファレンス接続生メディア（BLOB）-タイプ指定形式とマッピングユーザ定義タイプ（複合ファイル）データマップの定義インジェスト・ウィザードデータの整理と便利なストレージリモート・ストレージバージョニングデータ・アクセス保管、取り込み、エクスポート、アクセスの曖昧さをなくすファイルベースのエクスポートストリーミング・データクエリ紹介エコシステムとの統合セキュリティアクセス・コントロールアイデンティティと認証パーミッションのセット例署名入りURL個人識別可能情報プレラベリングデータを更新する概要
はじめにテクノロジーと人間の接着剤人間の仕事はなぜ必要なのか？新しい方法で非ソフトウェア・ユーザと提携するヒューマンタスクを始める基本スキーマの持続力ユーザの役割トレーニングゴールド・スタンダード・トレーニングタスク代入の概念インターフェイスをカスタマイズする必要があるか？平均的なアノテーターの使用期間は？タスクとプロジェクト構成品質保証アノテーター・トラスト注釈者はパートナーであるトレーニングデータのエラーのよくある原因タスク・レビューのループアナリティクスアノテーション・メトリクスの例データ探索モデルモデルを使って人間をデバッグするデータセット、モデル、モデルランの区別データをモデルに取り込むデータフローストリーミングの概要データ組織パイプラインとプロセスディレクトリ注釈ビジネス・プロセスの統合属性ラベリングの深さ既存のデータを監督するインタラクティブ・オートメーション例セマンティック・セグメンテーション・オートボーディングビデオ概要
はじめにセオリーシステムはスキーマと同じだけ有用である誰がデータを監督するか意図的に選ばれたデータがベストである過去のデータを扱うトレーニングデータはコードのようなものだトレーニングデータの使用に関する表面的な仮定人間の監督は古典的なデータセットとは異なる一般化概念データの妥当性定性的評価と定量的評価の必要性反復優先順位付け何をラベル付けするか転移学習とデータセットの関係（微調整）サンプルごとの判定呼び出し倫理とプライバシーへの配慮バイアス偏見から逃れるのは難しいメタデータメタデータの紛失を防ぐトレイン／バル／テストはチェリー・オン・ザ・トップだサンプル制作イチゴ摘み取りシステムのシンプルなスキーマ幾何学的表現バイナリ分類最初のセットを手動で作成しよう格上げされたクラス信号機はどこだ？メンテナンス行動ネット・リフトトレーニングデータ運用のシステム成熟度レベル応用セットと研究セットトレーニング・データ管理品質完了したタスク新鮮さセットのメタデータを維持するタスク管理概要
はじめにAIの変革日々の仕事を注釈として見るデータ中心AIの創造的革命新しいデータを作成できる収集するデータを変更できるデータの意味を変えることができるあなたは作成できる！主要プロジェクトにおけるステップ機能改善を考えるAIの現在と未来を守るためにAIデータを構築するリーダーを任命するAIデータ部長人々がAIの未来に抱く新たな期待時には提案と修正、時には交換上流プロデューサと下流コンシューマトレーニング・データチーム・エンゲージメントのスペクトラム専任プロデューサーとその他のチーム他チームのプロデューサを組織するユースケースの発見優れたユースケースの評価基準ルーブリックに照らしてユースケースを評価するユースケースの概念的には効果新しい「クラウド・ソーシング」：あなた自身の専門家トレーニングデータのROIに関する重要なレバー注釈付きデータが表すものトレーニングデータを自分で管理することのトレードオフハードウェアの必要性よくあるプロジェクトの間違い最新のトレーニング・データ・ツール完璧ではなく、学習曲線を考える新たなトレーニングと知識が求められる企業はいかにデータを生産し、消費するか避けるべき罠：トレーニングデータにおける早すぎる最適化銀の弾丸はないトレーニングデータの文化新しい工学原理概要
はじめにはじめにモチベーションを高める：いつこれらのメソッドを使うのか？メソッドがスキーマのどの部分に作用するように設計されているかをチェックする。人々は実際に何を使っているのか？どのような結果が期待できるか？よくある混乱ユーザインタフェースの最適化リスクトレードオフオートメーションの本質セットアップ費用ベンチマーキング問題に対するオートメーションのスコープをどのように設定するか修正時間主題専門家自動化のスタックを検討するプレラベリング標準プレラベルデータの一部だけにプレラベルを付けるインタラクティブな注釈の自動化自分で作成するテクニカル・セットアップの注意事項ウォッチャーとは何か（可観測性パターン）ウォッチャーの使い方関心領域をインタラクティブにキャプチャするGrabCutを使ってインタラクティブにボックスをポリゴンに描画するフルイメージモデルの予測例例異なる属性に対する人物検出品質保証オートメーションモデルを使って人間をデバッグする自動チェックリストの例ドメイン固有の妥当性チェックデータディスカバリー何をラベル付けするか人間探査生データの探索メタデータの探索プレラベリングベースのメタデータを追加するオーグメンテーションより良いモデルは、より良い補強よりも優れている補強するかしないかシミュレーションと合成データシミュレーションにはまだ人間のレビューが必要だメディア固有どのメソッドがどのメディアに有効か？考察メディア別リサーチドメイン固有ジオメトリーベースのラベリングヒューリスティックに基づくラベリング概要
はじめに産業セキュリティ・スタートアップがトレーニング・データ・ツールを採用大規模自動運転プロジェクトにおける品質保証ビッグテックへの挑戦保険テック・スタートアップの教訓ストーリートレーニング・データへの学術的アプローチKaggle TSA コンペティション概要

Content preview from 機械学習のためのトレーニングデータ

第8章. オートメーション

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

はじめに

自動化は堅牢なプロセスの作成、面倒なワークロードの削減、品質の向上に役立つ。この章で扱う最初のトピックは、プリラベリング（アノテーションの前にモデルを実行すること）である。基本をカバーした後、データの一部だけにプレ・ラベルを付けるような、より高度な概念について説明する。

次に、対話型オートメーションとは、ユーザがアルゴリズムを助けるために情報を追加することである。インタラクティブ・オートメーションの最終的なゴールは、アノテーション作業を、人間の思考の延長として、より自然なもの（）にすることだ。例えば、多角形によってマークされたより狭い場所を自動的に得るためにボックスを描くことは、私たちにとって直感的に感じられる。

品質保証（QA）は、トレーニング・データ・ツールの一般的な使い方（）のひとつである。私は、グランドトゥルースをデバッグするためにモデルを使用するようなエキサイティングな新しいメソッドをカバーする。他のツールは、自動的にベースケースをチェックし、一般化のためにデータを見る。

事前ラベリング、インタラクティブな自動化、そしてQAツールは、あなたを大きく前進させるだろう。基礎を学んだ後は、データ探索と発見の重要な側面について説明する。データをクエリし、最も関連性の高い部分だけにラベルを付けることができたらどうなるだろうか？この領域には、未知のデータセットを管理可能なサイズにフィルタリングするなどの概念が含まれる。

今回はデータ補強について、その一般的な使われ方と注意点について触れる。データオーグメンテーションとは、ベースとなる情報をもとに新たなデータを導き出すことである。その観点からは、ベースとなる情報をコアとなる学習データと考え、その導出プロセスであるオーグメンテーションをマシンラーニングの最適化と考えるとわかりやすいだろう。そのため、トレーニングデータの範疇を逸脱する部分もあるが、意識しておく必要がある。シミュレーションや合成データは状況に応じた使い道があるが、性能の限界については前面に出さなければならない。

この章では、多くのことを解き明かし、試してみたい。まずは、現在一般的に使われているプロジェクトプランニングのプロセスとテクニックを詳しく見てみよう。

はじめに

人件費の高騰、人手不足、繰り返し作業、十分な生データを得ることがほぼ不可能なケースなど、これらは自動化を使用する動機の一部である。自動化の中には、より実用的なものもある。まず、よく使われるメソッドの概要を説明し、次にどのような結果が期待でき、また期待できないかを説明する。最後に、オートメーションに関して最もよく混乱する2つの領域、完全自動ラベリングと独自メソッドについて説明する。

コストとリスクを見て、このセクションを締めくくる。このセクションは、概念がどのようにマッピングされているか、そして最終的には、それらが実際にあなたの仕事にどのように役立つかを示すものである。また、あなたの読み取りを方向付けるのに役立ち、一般的な解決パスを素早く調べるための参考資料としても機能する。

モチベーションを高める：いつこれらのメソッドを使うのか？

トレーニングデータを扱うとき、、自動化が役立つ問題に遭遇する可能性が高い。表8-1は、自動化に焦点を当てたソリューションで最も一般的な問題をいくつか取り上げている。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341651234

機械学習のためのトレーニングデータ

by Anthony Sarkis

第8章. オートメーション

はじめに

はじめに

モチベーションを高める：いつこれらのメソッドを使うのか？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

機械学習ポケットリファレンス

テスト駆動開発を学ぶ

FastAPIで生成型AIサービスを作る

ユーザーストーリーマッピング

Publisher Resources

第8章. オートメーション

はじめに

はじめに

モチベーションを高める：いつこれらのメソッドを使うのか？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

機械学習ポケットリファレンス

テスト駆動開発を学ぶ

FastAPIで生成型AIサービスを作る

ユーザーストーリーマッピング

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.