
扩展性和分布式训练
| 173
仓库中导入(
https://bit.ly/WeakSupervision Book
)),启动一个新集群来运
行我们的代码,并设置不同的作业来实现自动化等等。
Azure Databricks
的详细配置超出了本书的范围。如果你不熟悉
Databricks
,
建议阅读
Azure Databricks
文档
(
https://oreil.ly/l116i
)
以了解详细信息和最佳
的实践操作。
图
6
-
6
:Azure Databricks 工作区
弱监督的集群设置
首先,我们需要配置一个集群。在配置集群的时候,除了需要列出节点的详
细信息之外,还需要列出部署在每个节点上的包和相关的依赖。在实现集群
配置的过程中,我们还需要选择
Databricks
运行版本、集群策略和行为策略。
图
6-7
展示了我们用于运行
Snorkel
的配置,这也是我们在标记第
3
章中的
FakeNewsNet
数据集时所使用的配置。
如果想了解有关
Azure Databricks
上所有配置选项的更多细节,请参阅集群配
置文章
(
https://oreil.ly/5RpOe
)
。