Skip to Content
機械学習のためのトレーニングデータ
book

機械学習のためのトレーニングデータ

by Anthony Sarkis
May 2025
Beginner to intermediate
332 pages
4h 48m
Japanese
O'Reilly Media, Inc.
Book available
Content preview from 機械学習のためのトレーニングデータ

第4章 データ工学 データ工学

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

はじめに

以前の章では、抽象化された概念について紹介した。ここからは、その技術的な紹介から、実装の詳細やより主観的な選択について議論していく。より大規模なプロジェクトへのスケーリングやパフォーマンスの最適化について説明しながら、トレーニング・データを実際にどのように扱うかを紹介する。

データの取り込みは、最初の、そして最も重要なステップの一つである。そして、インジェストへの最初のステップは、トレーニングデータシステムオブレコード(SoR)をセットアップして使用することである。SoRの例はトレーニングデータデータベースである。

なぜデータの取り込みは難しいのか?多くの理由がある。例えば、トレーニングデータは比較的新しい概念であり、様々な形式やコミュニケーションの課題がある。データの量、種類、速度は様々で、確立された規範がないため、様々な方法がある。

また、トレーニングデータデータベースの使用や、誰がいつ何にアクセスしたいのかなど、経験豊富なエンジニアであっても明らかでない概念も多い。インジェストに関する決定は、最終的にクエリ、アクセス、エクスポートの検討事項を決定する。

この章は次のように構成されている:

  • 誰が、いつ、データを使いたいのか。

  • なぜデータ形式と通信メソッドが重要なのか?"電話ゲーム "を考えてみよう

  • 記録システムとしてのトレーニングデータデータベースの紹介

  • 技術的な基礎知識

  • ストレージ、メディア固有のニーズ、バージョニング

  • 形式とマッピングデータの商業的懸念

  • データアクセス、セキュリティ、ラベル付け済みデータ

データドリブン、あるいはデータ中心のアプローチを実現するためには、ツール、反復、そしてデータが必要である。反復が多く、データが多ければ多いほど、それを扱うための優れた組織の必要性は高まる。

データをインジェストし、それを探索し、アノテーションを付けるという順序で行うこともできる。あるいは、インジェストからモデルのデバッグに直行することもできる。トレーニングにストリーミングした後、新しい予測をインジェストし、それをデバッグし、アノテーションのワークフローを使用することもできる。重作業をデータベースに任せれば任せるほど、自分でやることが減っていく。

誰がデータを欲しがっているのか?

課題や技術的な詳細に飛び込む前に、ここでゴールと関係する人間についてテーブルをセットし、データエンジニアリングがそれらのエンドユーザやシステムにどのようにサービスを提供するかについて議論しよう。その後、トレーニングデータデータベースを必要とする概念的な理由を説明する。トレーニング・データ・データベースがない場合のデフォルトのケースを示し、次にトレーニング・データ・データベースがある場合のケースを示すことで、その必要性をフレームワークする。

議論を容易にするために、これをグループに分けることができる:

  • 注釈者

  • データサイエンティスト

  • MLプログラム(マシンからマシンへ)

  • アプリケーション・エンジニア

  • その他のステークホルダー

注釈者

アノテーターは、適切なタイミングで、適切なパーミッションで、適切な データを提供される必要がある。多くの場合、これはシングルファイルレベルで行われ、非常に具体的にスコープされたリクエストによって駆動される。パーミッションと認可が重視される。さらに、データは適切なタイミングで配信される必要がある。一般化すれば、それはオンデマンドまたはオンラインアクセスを意味する。これは、タスク・システムなどのソフトウェア・プロセスによってファイルが特定され、速い応答時間で提供されることを意味する。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

機械学習ポケットリファレンス

機械学習ポケットリファレンス

Matt Harrison
ユーザーストーリーマッピング

ユーザーストーリーマッピング

Jeff Patton, 川口 恭伸, 長尾 高弘

Publisher Resources

ISBN: 9798341651234