5章データ前処理
機械学習モデルの学習に使用するデータは、多くの場合、モデルに入力できない形式で与えられます。たとえば、サンプルプロジェクトでは、モデルの学習に使用したい特徴は、「Yes」と「No」のタグとして与えられていますが、この形式ではモデルに入力できません。モデルには、これらを数値表現(「1」や「0」など)として与える必要があります。そこで本章では、特徴を数値表現に変換して、モデルで学習できるようにする方法を説明します。
本章では、整合性のある前処理という話題を中心に説明をします。図5-1で示すように、前処理は「4章 データ検証」で説明したデータ検証のあとに行われます。データ前処理用のTFXコンポーネントであるTensorFlow Transform(TFT)を使用すると、前処理ステップをTensorFlowグラフとして作成できます。以降の節では、この方法が優れている理由と使うべきタイミング、および前処理ステップをエクスポートする方法について説明します。「6章 モデルの学習」では、前処理されたデータセットと保存された変換グラフを使用して、機械学習モデルの学習とエクスポートを行います。
前処理をTensorFlowのオペレーションを使って書くのは、データサイエンティストにとって、敷居が高すぎると感じる場合があります。というのも、この方法はPythonのpandas
やnumpy
を使って前処理を書くのとは違った実装が求められるからです。そのため、実験段階ではTFTの使用は推奨していません。ただ、以降の節で説明するように、機械学習モデルを本番環境へ導入するときに、前処理をTensorFlowのオペレーションに変換すると、「 ...
Get 入門 機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.