1章イントロダクション
1章では、まず機械学習パイプラインとその構築に必要なステップを説明します。次に、機械学習モデルを実験環境からロバストな本番システムへ移行するために必要なことを説明します。最後に、本書全体で用いるサンプルプロジェクトを紹介します。このサンプルプロジェクトを用いて、機械学習パイプラインの原理を説明します。
1.1 機械学習パイプラインの必要性
機械学習パイプラインの主な利点として、モデルのライフサイクルステップを自動化する点が挙げられます。機械学習では、新しい学習データを準備したら、データの検証、前処理、モデルの学習、分析、デプロイなどのステップを含むワークフローを実行する必要があります。現状、多くのデータサイエンスチームは、これらのステップを手動で実行しています。手動による実行はコストがかさみ、エラーの原因になるのが欠点です。以降では、手動による実行と比べた機械学習パイプラインの利点について詳しく説明します。
- 現行モデルの保守ではなく、新規モデルの開発に集中
- 自動化された機械学習パイプラインは、データサイエンティストを現行モデルの保守から解放します。多くのデータサイエンティストは、現行モデルを最新状態で保つ仕事に時間を費やしています。なぜ時間がかかるかというと、学習データを前処理するのにスクリプトを手動で実行し、一度しか使わないデプロイ用スクリプトを書き、モデルを手動でチューニングしているからです。自動化されたパイプラインは、データサイエンティストを新規モデルの開発に集中させます。これこそまさに、やりがいのある仕事です。結果として、データサイエンティストの満足度が向上し、競争の厳しい雇用市場において、従業員の定着率が改善します。
- バグの防止
- 自動化されたパイプラインはバグを防ぐことができます。以降の章で説明しますが、自動化されたパイプラインでは、前処理は開発したモデルに紐付けられ、モデルはバージョン管理されたデータに紐付けられます。つまり、最新バージョンのデータを用意すると、新しいモデルが生成されるのです。前処理を更新した場合、現在の学習データを無効にし、更新された前処理で新しいモデルを生成します。手動の機械学習ワークフローでは、モデルの学習後に前処理を変更したばかりに、バグを作り込むことがよく起きます。この場合、学習時の前処理とは異なる前処理をするモデルをデプロイしてしまいます。そうすると、デプロイしたモデルで推論自体はできてしまうため、バグがあることに気がつくのが難しくなります。自動化されたワークフローなら、この種のバグは防げます。 ...
Get 入門 機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.