book

機械学習のためのトレーニングデータ

by Anthony Sarkis

May 2025

Beginner to intermediate

332 pages

4h 48m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

誰がこの本を読むべきか？テクニカル・プロフェッショナルおよびエンジニア向けマネージャーおよびディレクター向け主題専門家およびデータ注釈専門家向けデータサイエンティストこの本を書いた理由本書の構成テーマ基礎と始め方概念と理論すべてをまとめる本書で使用されている慣例オライリー・オンライン・ラーニング問い合わせ先謝辞
トレーニングデータのインテントトレーニングデータで何ができるか？トレーニングデータは何に最も関心があるのか？トレーニングデータの機会ビジネスの変革トレーニングデータの効率金型製作能力プロセス改善の機会なぜトレーニングデータが重要なのかMLアプリケーションは主流になりつつある成功するAIの基礎トレーニング・データはここにとどまるトレーニングデータがMLプログラミングを制御する新しいタイプのユーザ野生のトレーニングデータ何がトレーニングデータを難しくしているのか？マシンを監督する技術データ・サイエンスの新機軸MLプログラムのエコシステムデータ中心のマシンラーニング失敗例トレーニングデータにも影響するトレーニングデータとは何か生成AI人間のアライメントは人間の監督である概要
はじめに立ち上げと実行インストールタスク設定アノテーターのセットアップデータ設定ワークフロー設定データカタログのセットアップ初期化最適化ツール概要マシン学習のためのトレーニングデータ増え続けるツール人、プロセス、データ埋め込み型監督ヒューマン・コンピューター監督エンド・コンサーンの分離規格多くのペルソナ機械学習ソフトウェアを提供するパラダイムトレードオフ費用インストール型とサービスとしてのソフトウェアの比較開発システムスケール設置オプション注釈インタフェースモデリング・インテグレーションマルチユーザとシングルユーザのシステム比較統合スコープ隠された前提セキュリティオープンソースとクローズドソース歴史オープンソース規格専用工具の必要性を認識する概要
スキーマ・ディープ・ダイブ入門ラベルと属性-それは何か？我々は何に関心があるのか？ラベルの紹介属性紹介属性の複雑さが空間的複雑さを上回る技術的概要空間表現はどこにあるのか？ソーシャル・バイアスを防ぐために空間タイプを使うタイプとのトレードオフコンピュータビジョン空間タイプの例関係、シーケンス、時系列：いつなのか？シーケンスと関係性いつガイドと指示ジャッジメントコール機械学習タスクと学習データの関係セマンティック・セグメンテーション画像の分類（タグ）オブジェクト検出ポーズ推定タスクとトレーニングデータ型の関係一般化概念インスタンス概念の再確認時間の経過とともにデータをアップグレードするモデリングとトレーニングデータの境界線生データの概念概要
はじめに誰がデータを欲しがっているのか？電話ゲーム優れたシステムを計画するナイーブアプローチとトレーニングデータ中心アプローチ生データ保管参考値または金額既製の専用トレーニング・データ・ツールを自社ハードウェアで利用できるデータ保管：データはどこに保管されるのか？外部リファレンス接続生メディア（BLOB）-タイプ指定形式とマッピングユーザ定義タイプ（複合ファイル）データマップの定義インジェスト・ウィザードデータの整理と便利なストレージリモート・ストレージバージョニングデータ・アクセス保管、取り込み、エクスポート、アクセスの曖昧さをなくすファイルベースのエクスポートストリーミング・データクエリ紹介エコシステムとの統合セキュリティアクセス・コントロールアイデンティティと認証パーミッションのセット例署名入りURL個人識別可能情報プレラベリングデータを更新する概要
はじめにテクノロジーと人間の接着剤人間の仕事はなぜ必要なのか？新しい方法で非ソフトウェア・ユーザと提携するヒューマンタスクを始める基本スキーマの持続力ユーザの役割トレーニングゴールド・スタンダード・トレーニングタスク代入の概念インターフェイスをカスタマイズする必要があるか？平均的なアノテーターの使用期間は？タスクとプロジェクト構成品質保証アノテーター・トラスト注釈者はパートナーであるトレーニングデータのエラーのよくある原因タスク・レビューのループアナリティクスアノテーション・メトリクスの例データ探索モデルモデルを使って人間をデバッグするデータセット、モデル、モデルランの区別データをモデルに取り込むデータフローストリーミングの概要データ組織パイプラインとプロセスディレクトリ注釈ビジネス・プロセスの統合属性ラベリングの深さ既存のデータを監督するインタラクティブ・オートメーション例セマンティック・セグメンテーション・オートボーディングビデオ概要
はじめにセオリーシステムはスキーマと同じだけ有用である誰がデータを監督するか意図的に選ばれたデータがベストである過去のデータを扱うトレーニングデータはコードのようなものだトレーニングデータの使用に関する表面的な仮定人間の監督は古典的なデータセットとは異なる一般化概念データの妥当性定性的評価と定量的評価の必要性反復優先順位付け何をラベル付けするか転移学習とデータセットの関係（微調整）サンプルごとの判定呼び出し倫理とプライバシーへの配慮バイアス偏見から逃れるのは難しいメタデータメタデータの紛失を防ぐトレイン／バル／テストはチェリー・オン・ザ・トップだサンプル制作イチゴ摘み取りシステムのシンプルなスキーマ幾何学的表現バイナリ分類最初のセットを手動で作成しよう格上げされたクラス信号機はどこだ？メンテナンス行動ネット・リフトトレーニングデータ運用のシステム成熟度レベル応用セットと研究セットトレーニング・データ管理品質完了したタスク新鮮さセットのメタデータを維持するタスク管理概要
はじめにAIの変革日々の仕事を注釈として見るデータ中心AIの創造的革命新しいデータを作成できる収集するデータを変更できるデータの意味を変えることができるあなたは作成できる！主要プロジェクトにおけるステップ機能改善を考えるAIの現在と未来を守るためにAIデータを構築するリーダーを任命するAIデータ部長人々がAIの未来に抱く新たな期待時には提案と修正、時には交換上流プロデューサと下流コンシューマトレーニング・データチーム・エンゲージメントのスペクトラム専任プロデューサーとその他のチーム他チームのプロデューサを組織するユースケースの発見優れたユースケースの評価基準ルーブリックに照らしてユースケースを評価するユースケースの概念的には効果新しい「クラウド・ソーシング」：あなた自身の専門家トレーニングデータのROIに関する重要なレバー注釈付きデータが表すものトレーニングデータを自分で管理することのトレードオフハードウェアの必要性よくあるプロジェクトの間違い最新のトレーニング・データ・ツール完璧ではなく、学習曲線を考える新たなトレーニングと知識が求められる企業はいかにデータを生産し、消費するか避けるべき罠：トレーニングデータにおける早すぎる最適化銀の弾丸はないトレーニングデータの文化新しい工学原理概要
はじめにはじめにモチベーションを高める：いつこれらのメソッドを使うのか？メソッドがスキーマのどの部分に作用するように設計されているかをチェックする。人々は実際に何を使っているのか？どのような結果が期待できるか？よくある混乱ユーザインタフェースの最適化リスクトレードオフオートメーションの本質セットアップ費用ベンチマーキング問題に対するオートメーションのスコープをどのように設定するか修正時間主題専門家自動化のスタックを検討するプレラベリング標準プレラベルデータの一部だけにプレラベルを付けるインタラクティブな注釈の自動化自分で作成するテクニカル・セットアップの注意事項ウォッチャーとは何か（可観測性パターン）ウォッチャーの使い方関心領域をインタラクティブにキャプチャするGrabCutを使ってインタラクティブにボックスをポリゴンに描画するフルイメージモデルの予測例例異なる属性に対する人物検出品質保証オートメーションモデルを使って人間をデバッグする自動チェックリストの例ドメイン固有の妥当性チェックデータディスカバリー何をラベル付けするか人間探査生データの探索メタデータの探索プレラベリングベースのメタデータを追加するオーグメンテーションより良いモデルは、より良い補強よりも優れている補強するかしないかシミュレーションと合成データシミュレーションにはまだ人間のレビューが必要だメディア固有どのメソッドがどのメディアに有効か？考察メディア別リサーチドメイン固有ジオメトリーベースのラベリングヒューリスティックに基づくラベリング概要
はじめに産業セキュリティ・スタートアップがトレーニング・データ・ツールを採用大規模自動運転プロジェクトにおける品質保証ビッグテックへの挑戦保険テック・スタートアップの教訓ストーリートレーニング・データへの学術的アプローチKaggle TSA コンペティション概要

Content preview from 機械学習のためのトレーニングデータ

第5章ワークフローワークフロー

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

はじめに

データのトレーニングとは、データを使って人間の意味を作成することだ。そのためには当然、人間が不可欠な要素である。この章では、トレーニング・データにおける人間のワークフローについて、その要点を解説する。

まず、ワークフローがいかに技術と人間の接着剤であるかを簡単に説明する。人間の作業に対する動機から始め、ワークフローの中核となるテーマへと話を進める：

はじめに
品質保証
アナリティクスとデータ探索
データの流れ
ディレクトリ注釈

Getting Started with Human Tasks」では、スキーマが残りやすい理由、ユーザの役割、トレーニングなど、基本的なことを話す。次に理解すべき最も重要なことは、品質保証（QA）である。私は構造的なレベルに焦点を当て、人間のアノテーターを信頼するための重要な動機、標準的なレビューのループ、よくあるエラーの原因について考える。

QAを開始し、基本的なQAを行った後、タスクやデータセットなどを分析する方法について学び始めるだろう。このセクションでは、データをデバッグするためにモデルを使う方法、そしてより一般化したモデルの扱い方について説明する。

データフロー、つまりデータを動かし、人間の前に出し、そしてモデルに渡すことは、ワークフローの重要な部分である。

最後に、直接アノテーションそのものを深く掘り下げることで、この章を締めくくる。この章では、ビジネス・プロセスの統合、既存データの監督、インタラクティブな自動化といったハイレベルな概念と、ビデオ・アノテーションの詳細な例を取り上げる。

技術と人間の接着剤

データエンジニアリングと人間の作業そのものとの間にあるのが、ここでワークフローと呼ぶ概念である。

ワークフローとは、技術的なデータ接続とそれに関連する人間のタスクの間に起こるすべての定義であり、「接着剤」である。

例えば、データエンジニアリングはバケットをトレーニングデータプラットフォームに接続するかもしれない。しかし、そのデータをタスクに取り込むタイミングはどうやって決めるのか？タスクが完了した後はどうするのか？優れたワークフローは、人間のタスクが完了する前と後に、データとプロセスを正しい方向に進める。

このような管理者の決定を実装するために必要なコードは、アドホックなメモ、単発のスクリプト、その他かなりもろい成果物やプロセスで構成されていることが多い。さらにこれを複雑にしているのが、プライバシーフィルターの実行、データの事前ラベリング、ルーティング、ソート、サードパーティのビジネスロジックとの統合など、中間的なステップの選択が増えていることだ。

その代わり、優れたワークフローは一般的に、、次のような特徴を目指す：

プロセスを明確に定義し、ステージ間のグルー・コードを可能な限り表面化させる。
人間の仕事が明確に含まれている
よく理解されたタイミング・プロトコル：何が手動で、何が自動で、そしてその間にあるものすべてである。
どのようなデータセットまたはデータのスライス（例：データクエリ）を使用するかを含む、明確に定義されたエクスポートステップ。
ウェブフック、トレーニングシステム、プレラベリングなど、サードパーティのステップや統合がすべて明確に示されている。
例えば、大規模なオーケストレーション・システムやモデル・トレーニング・システムに接続する場合など、明確なシステム境界や ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341651234

機械学習のためのトレーニングデータ

by Anthony Sarkis

第5章ワークフローワークフロー

はじめに

技術と人間の接着剤

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

機械学習ポケットリファレンス

テスト駆動開発を学ぶ

FastAPIで生成型AIサービスを作る

ユーザーストーリーマッピング

Publisher Resources

第5章 ワークフロー ワークフロー

はじめに

技術と人間の接着剤

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

機械学習ポケットリファレンス

テスト駆動開発を学ぶ

FastAPIで生成型AIサービスを作る

ユーザーストーリーマッピング

Publisher Resources

第5章ワークフローワークフロー

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.