book

機械学習のためのトレーニングデータ

by Anthony Sarkis

May 2025

Beginner to intermediate

332 pages

4h 48m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

誰がこの本を読むべきか？テクニカル・プロフェッショナルおよびエンジニア向けマネージャーおよびディレクター向け主題専門家およびデータ注釈専門家向けデータサイエンティストこの本を書いた理由本書の構成テーマ基礎と始め方概念と理論すべてをまとめる本書で使用されている慣例オライリー・オンライン・ラーニング問い合わせ先謝辞
トレーニングデータのインテントトレーニングデータで何ができるか？トレーニングデータは何に最も関心があるのか？トレーニングデータの機会ビジネスの変革トレーニングデータの効率金型製作能力プロセス改善の機会なぜトレーニングデータが重要なのかMLアプリケーションは主流になりつつある成功するAIの基礎トレーニング・データはここにとどまるトレーニングデータがMLプログラミングを制御する新しいタイプのユーザ野生のトレーニングデータ何がトレーニングデータを難しくしているのか？マシンを監督する技術データ・サイエンスの新機軸MLプログラムのエコシステムデータ中心のマシンラーニング失敗例トレーニングデータにも影響するトレーニングデータとは何か生成AI人間のアライメントは人間の監督である概要
はじめに立ち上げと実行インストールタスク設定アノテーターのセットアップデータ設定ワークフロー設定データカタログのセットアップ初期化最適化ツール概要マシン学習のためのトレーニングデータ増え続けるツール人、プロセス、データ埋め込み型監督ヒューマン・コンピューター監督エンド・コンサーンの分離規格多くのペルソナ機械学習ソフトウェアを提供するパラダイムトレードオフ費用インストール型とサービスとしてのソフトウェアの比較開発システムスケール設置オプション注釈インタフェースモデリング・インテグレーションマルチユーザとシングルユーザのシステム比較統合スコープ隠された前提セキュリティオープンソースとクローズドソース歴史オープンソース規格専用工具の必要性を認識する概要
スキーマ・ディープ・ダイブ入門ラベルと属性-それは何か？我々は何に関心があるのか？ラベルの紹介属性紹介属性の複雑さが空間的複雑さを上回る技術的概要空間表現はどこにあるのか？ソーシャル・バイアスを防ぐために空間タイプを使うタイプとのトレードオフコンピュータビジョン空間タイプの例関係、シーケンス、時系列：いつなのか？シーケンスと関係性いつガイドと指示ジャッジメントコール機械学習タスクと学習データの関係セマンティック・セグメンテーション画像の分類（タグ）オブジェクト検出ポーズ推定タスクとトレーニングデータ型の関係一般化概念インスタンス概念の再確認時間の経過とともにデータをアップグレードするモデリングとトレーニングデータの境界線生データの概念概要
はじめに誰がデータを欲しがっているのか？電話ゲーム優れたシステムを計画するナイーブアプローチとトレーニングデータ中心アプローチ生データ保管参考値または金額既製の専用トレーニング・データ・ツールを自社ハードウェアで利用できるデータ保管：データはどこに保管されるのか？外部リファレンス接続生メディア（BLOB）-タイプ指定形式とマッピングユーザ定義タイプ（複合ファイル）データマップの定義インジェスト・ウィザードデータの整理と便利なストレージリモート・ストレージバージョニングデータ・アクセス保管、取り込み、エクスポート、アクセスの曖昧さをなくすファイルベースのエクスポートストリーミング・データクエリ紹介エコシステムとの統合セキュリティアクセス・コントロールアイデンティティと認証パーミッションのセット例署名入りURL個人識別可能情報プレラベリングデータを更新する概要
はじめにテクノロジーと人間の接着剤人間の仕事はなぜ必要なのか？新しい方法で非ソフトウェア・ユーザと提携するヒューマンタスクを始める基本スキーマの持続力ユーザの役割トレーニングゴールド・スタンダード・トレーニングタスク代入の概念インターフェイスをカスタマイズする必要があるか？平均的なアノテーターの使用期間は？タスクとプロジェクト構成品質保証アノテーター・トラスト注釈者はパートナーであるトレーニングデータのエラーのよくある原因タスク・レビューのループアナリティクスアノテーション・メトリクスの例データ探索モデルモデルを使って人間をデバッグするデータセット、モデル、モデルランの区別データをモデルに取り込むデータフローストリーミングの概要データ組織パイプラインとプロセスディレクトリ注釈ビジネス・プロセスの統合属性ラベリングの深さ既存のデータを監督するインタラクティブ・オートメーション例セマンティック・セグメンテーション・オートボーディングビデオ概要
はじめにセオリーシステムはスキーマと同じだけ有用である誰がデータを監督するか意図的に選ばれたデータがベストである過去のデータを扱うトレーニングデータはコードのようなものだトレーニングデータの使用に関する表面的な仮定人間の監督は古典的なデータセットとは異なる一般化概念データの妥当性定性的評価と定量的評価の必要性反復優先順位付け何をラベル付けするか転移学習とデータセットの関係（微調整）サンプルごとの判定呼び出し倫理とプライバシーへの配慮バイアス偏見から逃れるのは難しいメタデータメタデータの紛失を防ぐトレイン／バル／テストはチェリー・オン・ザ・トップだサンプル制作イチゴ摘み取りシステムのシンプルなスキーマ幾何学的表現バイナリ分類最初のセットを手動で作成しよう格上げされたクラス信号機はどこだ？メンテナンス行動ネット・リフトトレーニングデータ運用のシステム成熟度レベル応用セットと研究セットトレーニング・データ管理品質完了したタスク新鮮さセットのメタデータを維持するタスク管理概要
はじめにAIの変革日々の仕事を注釈として見るデータ中心AIの創造的革命新しいデータを作成できる収集するデータを変更できるデータの意味を変えることができるあなたは作成できる！主要プロジェクトにおけるステップ機能改善を考えるAIの現在と未来を守るためにAIデータを構築するリーダーを任命するAIデータ部長人々がAIの未来に抱く新たな期待時には提案と修正、時には交換上流プロデューサと下流コンシューマトレーニング・データチーム・エンゲージメントのスペクトラム専任プロデューサーとその他のチーム他チームのプロデューサを組織するユースケースの発見優れたユースケースの評価基準ルーブリックに照らしてユースケースを評価するユースケースの概念的には効果新しい「クラウド・ソーシング」：あなた自身の専門家トレーニングデータのROIに関する重要なレバー注釈付きデータが表すものトレーニングデータを自分で管理することのトレードオフハードウェアの必要性よくあるプロジェクトの間違い最新のトレーニング・データ・ツール完璧ではなく、学習曲線を考える新たなトレーニングと知識が求められる企業はいかにデータを生産し、消費するか避けるべき罠：トレーニングデータにおける早すぎる最適化銀の弾丸はないトレーニングデータの文化新しい工学原理概要
はじめにはじめにモチベーションを高める：いつこれらのメソッドを使うのか？メソッドがスキーマのどの部分に作用するように設計されているかをチェックする。人々は実際に何を使っているのか？どのような結果が期待できるか？よくある混乱ユーザインタフェースの最適化リスクトレードオフオートメーションの本質セットアップ費用ベンチマーキング問題に対するオートメーションのスコープをどのように設定するか修正時間主題専門家自動化のスタックを検討するプレラベリング標準プレラベルデータの一部だけにプレラベルを付けるインタラクティブな注釈の自動化自分で作成するテクニカル・セットアップの注意事項ウォッチャーとは何か（可観測性パターン）ウォッチャーの使い方関心領域をインタラクティブにキャプチャするGrabCutを使ってインタラクティブにボックスをポリゴンに描画するフルイメージモデルの予測例例異なる属性に対する人物検出品質保証オートメーションモデルを使って人間をデバッグする自動チェックリストの例ドメイン固有の妥当性チェックデータディスカバリー何をラベル付けするか人間探査生データの探索メタデータの探索プレラベリングベースのメタデータを追加するオーグメンテーションより良いモデルは、より良い補強よりも優れている補強するかしないかシミュレーションと合成データシミュレーションにはまだ人間のレビューが必要だメディア固有どのメソッドがどのメディアに有効か？考察メディア別リサーチドメイン固有ジオメトリーベースのラベリングヒューリスティックに基づくラベリング概要
はじめに産業セキュリティ・スタートアップがトレーニング・データ・ツールを採用大規模自動運転プロジェクトにおける品質保証ビッグテックへの挑戦保険テック・スタートアップの教訓ストーリートレーニング・データへの学術的アプローチKaggle TSA コンペティション概要

Content preview from 機械学習のためのトレーニングデータ

第6章理論、概念、メンテナンス

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

はじめに

これまで、トレーニング・データの実用的な基本、つまり、どのように立ち上げ、実行し、どのように仕事のスケーリングを始めるかについて説明してきた。基本を理解したところで、さらに高度な概念、推測理論、メンテナンスの方法について説明しよう。

この章では、次のことを取り上げる：

セオリー
概念
サンプル作成
メンテナンス

世界を理解し、知的に解釈するためにマシンを訓練することは、途方もない作業のように感じられるかもしれない。しかし朗報がある。舞台裏のアルゴリズムが力仕事の多くをこなしてくれるのだ。学習データに関する我々の主な関心事は、「アライメント」、つまり何が良くて、何が無視されるべきで、何が悪いかを定義することに集約される。もちろん、実際のトレーニングデータには、うなずいたり首を振ったりするだけでは不十分だ。曖昧な人間用語を、マシンが理解できるように変換する方法を発見しなければならない。

技術的な読者への注意：この章は、トレーニングデータとデータサイエンスの関係についての概念的な理解を助けるためのものでもある。ここで取り上げたいくつかの概念に関するデータサイエンスの技術的な詳細は、本書の範囲外であり、トピックの言及はトレーニングデータとの関連においてのみであり、網羅的な説明ではない。

セオリー

トレーニングデータについてよりよく考えるのに役立つと思う理論がいくつかある。

ここでは箇条書きで理論を紹介し、各セクションでそれぞれの理論を説明する：

システムは、そのスキーマがあって初めて役に立つ。
意図的に選ばれたデータがベストだ。
人間による監視は、古典的なデータセット（異常検出など）とは異なる。
トレーニングデータはコードのようなものだ。
誰がデータを監督するかが重要だ。
トレーニングデータの使用に関する仮定を表面化する。
トレーニングデータの作成、更新、維持が仕事だ。

システムはスキーマと同じだけ有用である

これを説明するために、 "完璧なシステム "を想像してみよう。

例えば、街頭画像のような任意のサンプルに対して、「信号」や「一時停止標識」のようなスキーマを100％の確率で、失敗することなく自動的に検出することを完璧と定義しよう。

商業的に意味のある意味で完璧なのだろうか？

残念ながら、我々の "完璧な "システムは実際には完璧ではない。

というのも、祝杯を挙げ、塵も積もれば山となるで、私たちは信号を検知したいだけでなく、それが赤か、赤左か、緑か、緑左か、なども検知したいことに気づくからだ。この例の続きで、トレーニングデータを新しいクラス（赤、緑など）で更新する。そしてまたもや問題にぶつかる。光が遮られることがあるのだ。今度は、オクルージョンを考慮してトレーニングしなければならない。おっと、夜の例、雪に覆われた例など、リストはまだまだ続く。

初期化されたシステムがどんなにうまく計画されていたとしても、現実は複雑で常に変化する。私たちのニーズやスタイルは変化する。システムは、スキーマを設計し、更新し、維持する私たちの能力と同じくらいしか役に立たないだろう。

理想的なAI」は、我々が定義した抽象化（スキーマ）を、完璧に検出する。したがって、抽象化、つまりスキーマは、予測の精度と同じくらい、あるいはそれ以上に重要である。GenAIシステムの場合、このスキーマはアラインメントプロセスの ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341651234

機械学習のためのトレーニングデータ

by Anthony Sarkis

第6章理論、概念、メンテナンス

はじめに

セオリー

システムはスキーマと同じだけ有用である

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

機械学習ポケットリファレンス

テスト駆動開発を学ぶ

FastAPIで生成型AIサービスを作る

ユーザーストーリーマッピング

Publisher Resources

第6章 理論、概念、メンテナンス

はじめに

セオリー

システムはスキーマと同じだけ有用である

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

機械学習ポケットリファレンス

テスト駆動開発を学ぶ

FastAPIで生成型AIサービスを作る

ユーザーストーリーマッピング

Publisher Resources

第6章理論、概念、メンテナンス

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.