May 2025
Intermediate to advanced
366 pages
4h 36m
Chinese
当您使用 Kubeflow Pipelines 运行 TFX 管道时,您可能希望自定义 TFX 组件的底层容器映像。如果您的组件依赖于 TensorFlow 和 TFX 包之外的其他 Python 依赖项,则需要自定义 TFX 映像。在我们的演示管道中,我们有一个额外的 Python 依赖项,即 TensorFlow Hub 库,用于访问我们的语言模型。
在本附录的后半部分,我们将向你展示如何在本地计算机和持久卷之间传输数据。如果你能通过云存储提供商访问数据(例如,使用内部 Kubernetes 集群),那么持久卷的设置将非常有益。下面介绍的步骤将指导您完成将数据复制到群集和从群集复制数据的过程。
在我们的示例项目中,我们使用了 TensorFlow Hub 提供的语言模型。 我们使用 库来高效加载语言模型。原始 TFX 映像中并没有这个特定库;因此,我们需要用所需库构建一个自定义 TFX 映像。如果您计划使用自定义组件(如tensorflow_hub 第 10 章中讨论的组件),情况也是如此。
幸运的是,正如我们在附录 A 中讨论的那样,Docker 镜像的构建并不麻烦。下面的Dockerfile显示了我们的自定义镜像设置:
FROMtensorflow/tfx:0.22.0RUNpython3.6-mpipinstall"tensorflow-hub"RUN...ENTRYPOINT["python3.6", "/tfx-src/tfx/scripts/run_executor.py"]
我们可以轻松地继承标准 TFX 映像,将其作为自定义映像的基础。为避免 TFX API 发生任何突然变化,我们强烈建议将基础镜像的版本固定为特定的构建版本(如tensorflow/tfx:0.22.0),而不是常见的latest 标签。TFX 映像基于 Ubuntu Linux 发行版构建,并已安装 Python。在我们的例子中,只需为 ...
Read now
Unlock full access