第2章 立ち上げて実行する
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
はじめに
データをスムーズにストアするデータベースや、データをスムーズに提供するウェブサーバなど、データを扱う際に役立つツールはたくさんある。そして今、トレーニング・データをスムーズに扱うためのトレーニング・データ・ツールがある。
ツールに加え、データベースがアプリケーションの他の部分とどのように統合されるかについて、確立されたプロセスと期待がある。しかし、トレーニングデータについてはどうだろうか?どのようにトレーニングデータを立ち上げ、実行するのか?この章では、インストール、アノテーションのセットアップ、エンベッディング、エンドユーザ、ワークフローなど、重要な考慮事項について説明する。
ここで重要なのは、なぜ私が先ほどトレーニングデータをスムーズに扱うと言ったかだ。スムーズに」というのは、データベースを使う必要がないからだ。データをファイルに書き込み、そこから読み取ることもできる。なぜシステムを構築するのにPostgresのようなデータベースが必要なのか?Postgresは、データが簡単に破損しないこと、データが復元可能であること、データが効率的にクエリできることなど、膨大な機能を提供してくれるからだ。トレーニング・データ・ツールも同じように進化してきた。
この章では、次のことを取り上げる:
-
立ち上げと運営方法
-
トレーニング・データ・ツールの範囲
-
トレーニングデータツールを使う利点
-
トレードオフ
-
今日に至るまでの歴史
その大半は、今日のあなたに関連することに焦点を当てている。また、なぜこれらのツールが重要なのかを示すために、歴史に関する簡単なセクションもいくつか設けている。さらに、よくある質問にも答える:
-
トレーニング・データ・ツールの重要な概念的には何があるのか?
-
トレーニング・データ・ツールはあなたのスタックのどこに位置するのか?
本章に入る前に、2つの重要なテーマがある。
より大きなシステムやプラットフォームであっても、。ツールとは、トレーニングデータの目標を達成するのに役立つあらゆるテクノロジーを意味する。ツールの使用は、トレーニングデータの日々の作業の一部である。本書を通して、私は抽象化された概念をツールを使って具体的な例に置き換えている。ハイレベルな概念と具体的な実装サンプルの間をジャンプすることで、より完全なイメージを得ることができる。
練習は永久に続く。どんな芸術でもそうであるように、その道の道具をマスターしなければならない。トレーニングデータには、慣れ親しみ、理解すべき様々なツールの選択肢がある。クローズドソースかオープンソースか、デプロイのオプションなど、トレードオフについて話し、人気のあるツールを探っていく。
立ち上げと実行
以下のセクションは、トレーニング・データ・システムを稼働させるための、最低限実行可能なロードマップである。便宜上、セクションごとに分けてある。通常、これらのタスクは別々の人に任せることができ、多くは並行して行うことができる。様々な要因によるが、完全にセットアップするまでに何ヶ月もかかる場合もあるので、計画にあたってはその点も考慮する必要がある。
新たなスタートを切るのであれば、これらのステップのすべてが当てはまる。チームがすでに順調に進んでいる場合は、既存のプロセスが包括的かどうかを確認するためのチェックリストとなる。 ...