
268
|
第
15
章
有空标签的特征、超出你预期范围的值以及其他异常情况。深入了解 TensorFlow 数据验
证超出了本书的范围,但你可以通过查看 TFDV 指南(
https://oreil.ly/7qydA
)来了解更
多信息。
15.1.3
构建和训练模型
除了探索你的数据以及你可能从上面列出的任何模型之外,在构建和训练模型时你还可
以考虑一些注意事项。同样,这些内容中的每一个都非常详细,并非所有内容都适用于
你。我不会在此处详细介绍它们,但我会给你可以了解更多信息资源的链接。
模型修复
创建模型时,你可能会对使用该模型的结果产生偏差。原因之一是你的模型可能在某些
数据切片上表现不佳。这可能是非常有害的。例如,如果你建立一个疾病诊断模型,该
模型对男性和女性表现非常好,但对不知道性别或非二元性的人表现不佳,因为缺乏这
些类别的数据。通常有三种方法可以解决这个问题
—
改变输入数据、通过更新架构来
改变模型或对结果进行后处理。一个称为 MinDiff 的过程可用于均衡数据的分布,可以
平衡数据切片之间的错误率。因此,在训练时,分布的差异可以更紧密地合并在一起,
因此在数据切片中预测的结果可以更加平衡。
请考虑图 15-5。左侧是两个不同数据切片的预测分数,其中在训练期间没有使用 MinDiff
算法。结果是预测的结果大不相同。在右侧,相同的预测曲线重叠,但它们彼此更接近。
图
15-5
:使用
MinDiff
这项技术值得探索,TensorFlow 网站(
https://oreil.ly/3LgAl
)上提供了详细的教程。 ...