第4章 データ工学 データ工学
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
はじめに
以前の章では、抽象化された概念について紹介した。ここからは、その技術的な紹介から、実装の詳細やより主観的な選択について議論していく。より大規模なプロジェクトへのスケーリングやパフォーマンスの最適化について説明しながら、トレーニング・データを実際にどのように扱うかを紹介する。
データの取り込みは、最初の、そして最も重要なステップの一つである。そして、インジェストへの最初のステップは、トレーニングデータシステムオブレコード(SoR)をセットアップして使用することである。SoRの例はトレーニングデータデータベースである。
なぜデータの取り込みは難しいのか?多くの理由がある。例えば、トレーニングデータは比較的新しい概念であり、様々な形式やコミュニケーションの課題がある。データの量、種類、速度は様々で、確立された規範がないため、様々な方法がある。
また、トレーニングデータデータベースの使用や、誰がいつ何にアクセスしたいのかなど、経験豊富なエンジニアであっても明らかでない概念も多い。インジェストに関する決定は、最終的にクエリ、アクセス、エクスポートの検討事項を決定する。
この章は次のように構成されている:
誰が、いつ、データを使いたいのか。
なぜデータ形式と通信メソッドが重要なのか?"電話ゲーム "を考えてみよう
記録システムとしてのトレーニングデータデータベースの紹介
技術的な基礎知識
ストレージ、メディア固有のニーズ、バージョニング
形式とマッピングデータの商業的懸念
データアクセス、セキュリティ、ラベル付け済みデータ
データドリブン、あるいはデータ中心のアプローチを実現するためには、ツール、反復、そしてデータが必要である。反復が多く、データが多ければ多いほど、それを扱うための優れた組織の必要性は高まる。
データをインジェストし、それを探索し、アノテーションを付けるという順序で行うこともできる。あるいは、インジェストからモデルのデバッグに直行することもできる。トレーニングにストリーミングした後、新しい予測をインジェストし、それをデバッグし、アノテーションのワークフローを使用することもできる。重作業をデータベースに任せれば任せるほど、自分でやることが減っていく。
誰がデータを欲しがっているのか?
課題や技術的な詳細に飛び込む前に、ここでゴールと関係する人間についてテーブルをセットし、データエンジニアリングがそれらのエンドユーザやシステムにどのようにサービスを提供するかについて議論しよう。その後、トレーニングデータデータベースを必要とする概念的な理由を説明する。トレーニング・データ・データベースがない場合のデフォルトのケースを示し、次にトレーニング・データ・データベースがある場合のケースを示すことで、その必要性をフレームワークする。
議論を容易にするために、これをグループに分けることができる:
注釈者
データサイエンティスト
MLプログラム(マシンからマシンへ)
アプリケーション・エンジニア
その他のステークホルダー
注釈者
アノテーターは、適切なタイミングで、適切なパーミッションで、適切な データを提供される必要がある。多くの場合、これはシングルファイルレベルで行われ、非常に具体的にスコープされたリクエストによって駆動される。パーミッションと認可が重視される。さらに、データは適切なタイミングで配信される必要がある。一般化すれば、それはオンデマンドまたはオンラインアクセスを意味する。これは、タスク・システムなどのソフトウェア・プロセスによってファイルが特定され、速い応答時間で提供されることを意味する。 ...