
224
|
第
13
章
在这一点上,至关重要的是要稳健地设置此类流水线。仅当新数据的涌入导致数据统计信
息超出数据验证中设置的限制,或者导致模型统计信息超出模型分析中设置的边界时,才
会导致流水线发生故障。然后,这可以触发诸如模型重新训练、新特征工程等事件。如果
这些触发器之一被触发,则新模型应该收到一个新的版本号。
除了收集新的训练数据,反馈循环还可以提供有关模型实际使用情况的信息。这可能包括
活跃用户的数量、他们与之交互的时间以及许多其他数据。这类数据对于向业务干系人证
明模型的价值非常有用。
反馈循环可能很危险
反馈循环也可能带来负面影响,应谨慎对待。如果在没有人工输入的情况下
将模型的预测重新输入到新的训练数据中,那么该模型将既从其正确的预测
中学习又从其错误的预测中学习。反馈循环还可能放大原始数据中存在的任
何偏差或不公平现象。仔细的模型分析可以帮助你发现其中的一些情况。
13.1
显式反馈和隐式反馈
可以将反馈分为两种主要类型:显式反馈和隐式反馈。
1
显式
反馈是用户对预测的一些直
接的输入,例如,对推荐系统的购物或观影推荐给予点赞(竖起大拇指)或差评(大拇指
向下),或者更正预测。
隐式
反馈是人们在正常使用产品时的行为为模型提供反馈,例如,
购买推荐系统推荐的东西或观看推荐的电影。用户隐私需要通过隐式反馈进行仔细考虑,
因为它很容易跟踪用户采取的每项操作。
13.1.1
数据飞轮
在有些情况下,你可能拥有了创立基于机器学习的新产品所需的所有数据。但是在其他情
况下,你可能需要收集更多的数据。在处理监督学习问题时 ...