付録CKubeflow Pipelinesを運用するためのTips

Kubeflow Pipelinesを用いてTFXパイプラインを運用する場合、TFXコンポーネントのもとになるコンテナイメージをカスタマイズしたいことがあります。カスタムTFXイメージは、コンポーネントがTensorFlowやTFXパッケージ以外のパッケージに依存している場合に必要となります。デモのパイプラインでは、言語モデルを利用するために、TensorFlow Hubを追加しています。

この付録の後半では、ローカルコンピュータと永続ボリュームとの間でデータを転送する方法を紹介します。永続ボリュームのセットアップは、クラウドストレージを介してデータにアクセスできる場合(オンプレミスのKubernetesクラスタを使用している場合など)に有益です。紹介する手順では、クラスタへのデータのコピーとクラスタからのデータのコピーの手順を説明します。

C.1 カスタムTFXイメージ

サンプルプロジェクトでは、TensorFlow Hubが提供する言語モデルを利用します。言語モデルを効率的に読み込むために tensorflow_hub パッケージを使用します。このパッケージはオリジナルのTFXイメージには組み込まれていないので、TensorFlow Hubを組み込んだカスタムTFXイメージを構築する必要があります。これは、「10章 TFXの高度な機能」で説明したようなカスタムコンポーネントを使用する場合にも当てはまります。

幸いなことに、「付録A 機械学習のためのインフラ入門」で説明したように、Dockerイメージの構築は、それほど面倒ではありません。次のDockerfileにカスタムイメージの構成を示します。

FROM ...

Get 入門 機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.