book

機械学習のためのトレーニングデータ

by Anthony Sarkis

May 2025

Beginner to intermediate

332 pages

4h 48m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

誰がこの本を読むべきか？テクニカル・プロフェッショナルおよびエンジニア向けマネージャーおよびディレクター向け主題専門家およびデータ注釈専門家向けデータサイエンティストこの本を書いた理由本書の構成テーマ基礎と始め方概念と理論すべてをまとめる本書で使用されている慣例オライリー・オンライン・ラーニング問い合わせ先謝辞
トレーニングデータのインテントトレーニングデータで何ができるか？トレーニングデータは何に最も関心があるのか？トレーニングデータの機会ビジネスの変革トレーニングデータの効率金型製作能力プロセス改善の機会なぜトレーニングデータが重要なのかMLアプリケーションは主流になりつつある成功するAIの基礎トレーニング・データはここにとどまるトレーニングデータがMLプログラミングを制御する新しいタイプのユーザ野生のトレーニングデータ何がトレーニングデータを難しくしているのか？マシンを監督する技術データ・サイエンスの新機軸MLプログラムのエコシステムデータ中心のマシンラーニング失敗例トレーニングデータにも影響するトレーニングデータとは何か生成AI人間のアライメントは人間の監督である概要
はじめに立ち上げと実行インストールタスク設定アノテーターのセットアップデータ設定ワークフロー設定データカタログのセットアップ初期化最適化ツール概要マシン学習のためのトレーニングデータ増え続けるツール人、プロセス、データ埋め込み型監督ヒューマン・コンピューター監督エンド・コンサーンの分離規格多くのペルソナ機械学習ソフトウェアを提供するパラダイムトレードオフ費用インストール型とサービスとしてのソフトウェアの比較開発システムスケール設置オプション注釈インタフェースモデリング・インテグレーションマルチユーザとシングルユーザのシステム比較統合スコープ隠された前提セキュリティオープンソースとクローズドソース歴史オープンソース規格専用工具の必要性を認識する概要
スキーマ・ディープ・ダイブ入門ラベルと属性-それは何か？我々は何に関心があるのか？ラベルの紹介属性紹介属性の複雑さが空間的複雑さを上回る技術的概要空間表現はどこにあるのか？ソーシャル・バイアスを防ぐために空間タイプを使うタイプとのトレードオフコンピュータビジョン空間タイプの例関係、シーケンス、時系列：いつなのか？シーケンスと関係性いつガイドと指示ジャッジメントコール機械学習タスクと学習データの関係セマンティック・セグメンテーション画像の分類（タグ）オブジェクト検出ポーズ推定タスクとトレーニングデータ型の関係一般化概念インスタンス概念の再確認時間の経過とともにデータをアップグレードするモデリングとトレーニングデータの境界線生データの概念概要
はじめに誰がデータを欲しがっているのか？電話ゲーム優れたシステムを計画するナイーブアプローチとトレーニングデータ中心アプローチ生データ保管参考値または金額既製の専用トレーニング・データ・ツールを自社ハードウェアで利用できるデータ保管：データはどこに保管されるのか？外部リファレンス接続生メディア（BLOB）-タイプ指定形式とマッピングユーザ定義タイプ（複合ファイル）データマップの定義インジェスト・ウィザードデータの整理と便利なストレージリモート・ストレージバージョニングデータ・アクセス保管、取り込み、エクスポート、アクセスの曖昧さをなくすファイルベースのエクスポートストリーミング・データクエリ紹介エコシステムとの統合セキュリティアクセス・コントロールアイデンティティと認証パーミッションのセット例署名入りURL個人識別可能情報プレラベリングデータを更新する概要
はじめにテクノロジーと人間の接着剤人間の仕事はなぜ必要なのか？新しい方法で非ソフトウェア・ユーザと提携するヒューマンタスクを始める基本スキーマの持続力ユーザの役割トレーニングゴールド・スタンダード・トレーニングタスク代入の概念インターフェイスをカスタマイズする必要があるか？平均的なアノテーターの使用期間は？タスクとプロジェクト構成品質保証アノテーター・トラスト注釈者はパートナーであるトレーニングデータのエラーのよくある原因タスク・レビューのループアナリティクスアノテーション・メトリクスの例データ探索モデルモデルを使って人間をデバッグするデータセット、モデル、モデルランの区別データをモデルに取り込むデータフローストリーミングの概要データ組織パイプラインとプロセスディレクトリ注釈ビジネス・プロセスの統合属性ラベリングの深さ既存のデータを監督するインタラクティブ・オートメーション例セマンティック・セグメンテーション・オートボーディングビデオ概要
はじめにセオリーシステムはスキーマと同じだけ有用である誰がデータを監督するか意図的に選ばれたデータがベストである過去のデータを扱うトレーニングデータはコードのようなものだトレーニングデータの使用に関する表面的な仮定人間の監督は古典的なデータセットとは異なる一般化概念データの妥当性定性的評価と定量的評価の必要性反復優先順位付け何をラベル付けするか転移学習とデータセットの関係（微調整）サンプルごとの判定呼び出し倫理とプライバシーへの配慮バイアス偏見から逃れるのは難しいメタデータメタデータの紛失を防ぐトレイン／バル／テストはチェリー・オン・ザ・トップだサンプル制作イチゴ摘み取りシステムのシンプルなスキーマ幾何学的表現バイナリ分類最初のセットを手動で作成しよう格上げされたクラス信号機はどこだ？メンテナンス行動ネット・リフトトレーニングデータ運用のシステム成熟度レベル応用セットと研究セットトレーニング・データ管理品質完了したタスク新鮮さセットのメタデータを維持するタスク管理概要
はじめにAIの変革日々の仕事を注釈として見るデータ中心AIの創造的革命新しいデータを作成できる収集するデータを変更できるデータの意味を変えることができるあなたは作成できる！主要プロジェクトにおけるステップ機能改善を考えるAIの現在と未来を守るためにAIデータを構築するリーダーを任命するAIデータ部長人々がAIの未来に抱く新たな期待時には提案と修正、時には交換上流プロデューサと下流コンシューマトレーニング・データチーム・エンゲージメントのスペクトラム専任プロデューサーとその他のチーム他チームのプロデューサを組織するユースケースの発見優れたユースケースの評価基準ルーブリックに照らしてユースケースを評価するユースケースの概念的には効果新しい「クラウド・ソーシング」：あなた自身の専門家トレーニングデータのROIに関する重要なレバー注釈付きデータが表すものトレーニングデータを自分で管理することのトレードオフハードウェアの必要性よくあるプロジェクトの間違い最新のトレーニング・データ・ツール完璧ではなく、学習曲線を考える新たなトレーニングと知識が求められる企業はいかにデータを生産し、消費するか避けるべき罠：トレーニングデータにおける早すぎる最適化銀の弾丸はないトレーニングデータの文化新しい工学原理概要
はじめにはじめにモチベーションを高める：いつこれらのメソッドを使うのか？メソッドがスキーマのどの部分に作用するように設計されているかをチェックする。人々は実際に何を使っているのか？どのような結果が期待できるか？よくある混乱ユーザインタフェースの最適化リスクトレードオフオートメーションの本質セットアップ費用ベンチマーキング問題に対するオートメーションのスコープをどのように設定するか修正時間主題専門家自動化のスタックを検討するプレラベリング標準プレラベルデータの一部だけにプレラベルを付けるインタラクティブな注釈の自動化自分で作成するテクニカル・セットアップの注意事項ウォッチャーとは何か（可観測性パターン）ウォッチャーの使い方関心領域をインタラクティブにキャプチャするGrabCutを使ってインタラクティブにボックスをポリゴンに描画するフルイメージモデルの予測例例異なる属性に対する人物検出品質保証オートメーションモデルを使って人間をデバッグする自動チェックリストの例ドメイン固有の妥当性チェックデータディスカバリー何をラベル付けするか人間探査生データの探索メタデータの探索プレラベリングベースのメタデータを追加するオーグメンテーションより良いモデルは、より良い補強よりも優れている補強するかしないかシミュレーションと合成データシミュレーションにはまだ人間のレビューが必要だメディア固有どのメソッドがどのメディアに有効か？考察メディア別リサーチドメイン固有ジオメトリーベースのラベリングヒューリスティックに基づくラベリング概要
はじめに産業セキュリティ・スタートアップがトレーニング・データ・ツールを採用大規模自動運転プロジェクトにおける品質保証ビッグテックへの挑戦保険テック・スタートアップの教訓ストーリートレーニング・データへの学術的アプローチKaggle TSA コンペティション概要

Content preview from 機械学習のためのトレーニングデータ

第4章データ工学データ工学

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

はじめに

以前の章では、抽象化された概念について紹介した。ここからは、その技術的な紹介から、実装の詳細やより主観的な選択について議論していく。より大規模なプロジェクトへのスケーリングやパフォーマンスの最適化について説明しながら、トレーニング・データを実際にどのように扱うかを紹介する。

データの取り込みは、最初の、そして最も重要なステップの一つである。そして、インジェストへの最初のステップは、トレーニングデータシステムオブレコード（SoR）をセットアップして使用することである。SoRの例はトレーニングデータデータベースである。

なぜデータの取り込みは難しいのか？多くの理由がある。例えば、トレーニングデータは比較的新しい概念であり、様々な形式やコミュニケーションの課題がある。データの量、種類、速度は様々で、確立された規範がないため、様々な方法がある。

また、トレーニングデータデータベースの使用や、誰がいつ何にアクセスしたいのかなど、経験豊富なエンジニアであっても明らかでない概念も多い。インジェストに関する決定は、最終的にクエリ、アクセス、エクスポートの検討事項を決定する。

この章は次のように構成されている：

誰が、いつ、データを使いたいのか。
なぜデータ形式と通信メソッドが重要なのか？"電話ゲーム "を考えてみよう
記録システムとしてのトレーニングデータデータベースの紹介
技術的な基礎知識
ストレージ、メディア固有のニーズ、バージョニング
形式とマッピングデータの商業的懸念
データアクセス、セキュリティ、ラベル付け済みデータ

データドリブン、あるいはデータ中心のアプローチを実現するためには、ツール、反復、そしてデータが必要である。反復が多く、データが多ければ多いほど、それを扱うための優れた組織の必要性は高まる。

データをインジェストし、それを探索し、アノテーションを付けるという順序で行うこともできる。あるいは、インジェストからモデルのデバッグに直行することもできる。トレーニングにストリーミングした後、新しい予測をインジェストし、それをデバッグし、アノテーションのワークフローを使用することもできる。重作業をデータベースに任せれば任せるほど、自分でやることが減っていく。

誰がデータを欲しがっているのか？

課題や技術的な詳細に飛び込む前に、ここでゴールと関係する人間についてテーブルをセットし、データエンジニアリングがそれらのエンドユーザやシステムにどのようにサービスを提供するかについて議論しよう。その後、トレーニングデータデータベースを必要とする概念的な理由を説明する。トレーニング・データ・データベースがない場合のデフォルトのケースを示し、次にトレーニング・データ・データベースがある場合のケースを示すことで、その必要性をフレームワークする。

議論を容易にするために、これをグループに分けることができる：

注釈者
データサイエンティスト
MLプログラム（マシンからマシンへ）
アプリケーション・エンジニア
その他のステークホルダー

注釈者

アノテーターは、適切なタイミングで、適切なパーミッションで、適切なデータを提供される必要がある。多くの場合、これはシングルファイルレベルで行われ、非常に具体的にスコープされたリクエストによって駆動される。パーミッションと認可が重視される。さらに、データは適切なタイミングで配信される必要がある。一般化すれば、それはオンデマンドまたはオンラインアクセスを意味する。これは、タスク・システムなどのソフトウェア・プロセスによってファイルが特定され、速い応答時間で提供されることを意味する。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341651234

機械学習のためのトレーニングデータ

by Anthony Sarkis

第4章データ工学データ工学

はじめに

誰がデータを欲しがっているのか？

注釈者

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

機械学習ポケットリファレンス

テスト駆動開発を学ぶ

FastAPIで生成型AIサービスを作る

ユーザーストーリーマッピング

Publisher Resources

第4章 データ工学 データ工学

はじめに

誰がデータを欲しがっているのか？

注釈者

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

機械学習ポケットリファレンス

テスト駆動開発を学ぶ

FastAPIで生成型AIサービスを作る

ユーザーストーリーマッピング

Publisher Resources

第4章データ工学データ工学

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.