
弱监督介绍
| 15
Snorkel
弱监督实例
Snorkel
是斯坦福大学于
2016
年启动的一个项目,其目的是为了让用户能够
使用程序化的方法来快速标注、构建和管理训练数据。围绕
Snorkel
的研究
还推动了其他相关领域的创新,如数据增强、多任务学习和无监督训练。此
后,
Snorkel
不断发展壮大,并与美国国防部高级研究计划局
(DARPA)
、谷歌
(Google)
和英特尔
(Intel)
等公司和研究机构展开了合作。
在这项研究的基础上,
Snorkel(
一个开源项目
)
已经扩展为一家名为
Snorkel.
ai
的商业公司。
Snorkel AI
的主要产品是
Snorkel Flow (
https://www.snorkel.
ai/platform
)
,这是一个以数据为中心的平台,用于构建企业级的
AI
应用。
Snorkel Flow
支持
Python
语言的软件开发工具包
(SDK)
和开发者
API
,也
有一个图形化界面的无代码接口,允许技术和非技术业务用户在构建应用时
使用。
在本书中,我们将使用
Snorkel
的开源版本,而非其商业平台
Snorkel Flow
来
进行讲解。
弱监督和
Snorkel
可以帮助解决机器学习操作
(MLOps)
的一些挑战,例如模
型治理、操作、数据沿袭等等。以代码形式表达的弱监督允许我们在合并不
同数据点时具有很大的灵活性。这有助于提高泛化能力,并可以很容易地扩
展未标记的数据。
程序化的弱监督可能有助于消除偏差
程序化的弱监督有助于改善可解释性和减少偏差。与大多数机器学习模型不
同,程序化的弱监督是不透明的。在这种弱监督下,我们的训练数据是通过 ...