6章継続的トレーニングをするための機械学習基盤
4章では、機械学習をシステムに組み込む方法についての基本的な設計方針を学びました。本章では、さらに長期的にシステムを運用するためにはどのようなポイントを抑えて機械学習基盤を構築していけば良いのかを説明します。
6.1 機械学習システム特有の難しさ
1.3「実システムにおける機械学習の問題点への対処方法」でも実システムにおける機械学習の問題点を書きましたが、大きな機械学習システムには、従来のソフトウェアシステムではあまり問題視されることがなかった課題があります。ここでは、従来のソフトウェアシステムと比較をした機械学習システムの課題を明らかにしきましょう。具体的には、次の3つが大きな機械学習システム特有の課題だといえます。
データサイエンティスト vs ソフトウェアエンジニア
同一の予測結果を得る難しさ
継続的トレーニングとサービングの必要性
6.1.1 データサイエンティスト vs ソフトウェアエンジニア
図6.1に、機械学習の予測モデル開発の典型的なワークフローの例を示します。
図6.1の流れを要約すると、まずデータ基盤へのデータ収集があり、必要なデータの加工や可視化などの探索的データ分析(EDA、Exploratory Data Analysis)を実施し、学習したモデルまたは予測結果を本番環境へとデプロイしています。
このワークフローにおいて、いわゆるデータサイエンティストや機械学習エンジニアと呼ばれる人々は、真ん中の探索的なモデル開発の部分を担当することになります。一方、最初および最後の部分の開発や運用を担当することになるのは、ソフトウェアエンジニアやデータエンジニアと呼ばれる人々です。つまり、この図に代表される機械学習のワークフローには、複数のロールにまたがってシステム開発を進めることが多いという特徴があります。 ...
Get 仕事ではじめる機械学習 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.