May 2025
Intermediate to advanced
366 pages
4h 36m
Chinese
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
有了基本的 TFX 设置和 ML MetadataStore,在本章中,我们将重点介绍如何将数据集摄取到管道中,以便在各种组件中使用,如图 3-1 所示。
TFX 为我们提供了从文件或服务中获取数据的组件。在本章中,我们将概述基本概念,解释将数据集拆分为训练和评估子集的方法,并演示如何将多个数据导出合并为一个全面的数据集。 然后,我们将讨论一些摄取不同形式数据(结构化数据、文本数据和图像数据)的策略,这些策略已在以往的使用案例中得到证明。
在管道的这一步骤中,我们从外部服务(如谷歌云 BigQuery)读取数据文件或请求管道运行所需的数据。 在将获取的数据集传递给下一个组件之前,我们会将可用数据划分为不同的数据集(例如训练数据集和验证数据集),然后将数据集转换为 TFRecord 文件,其中包含以tf.Example 数据结构表示的数据。
数据集的摄取、分割和转换过程由ExampleGen 组件执行。 正如我们在以下示例中看到的,数据集可以从本地和远程文件夹中读取,也可以从 Google Cloud BigQuery 等数据服务中请求。
ExampleGen 组件可以接收一些数据结构,包括逗号分隔值文件(CSV)、预计算的 ...
Read now
Unlock full access