
模型训练模式
|
175
这与迁移学习有什么关系?
后一种方法(训练有监督学习模型以生成句子嵌入)实
际上是迁移学习的一种形式。这是
Google
的
Universal Sentence Encoder
(
https://
oreil.ly/Y0Ry9
)(可在
TF Hub
中使用)和
BERT
(
https://oreil.ly/l_gQf
)所使用的方
法。这些方法与词嵌入的不同之处在于,它们不仅仅为单个词提供权值查找。相反,
它们是通过在各种文本的大型数据集上训练模型以理解单词序列所表达的含义来构
建的。通过这种方式,它们被设计为可以迁移到不同自然语言任务上,因此可以用
来构建实现迁移学习的模型。
设计模式
14
:分布式策略
在分布式策略设计模式中,通常由多个工作者进行大规模的训练循环,并使用缓存、
硬件加速和并行化等模式。
问题
如今,大型神经网络拥有数百万个参数,并基于大量数据进行训练是很常见的。事
实证明,就训练样本的数量、模型参数的数量而言,增加深度学习的规模可以显著
提高模型的性能。但是,随着模型和数据规模的增加,计算和内存需求也成比例增加,
这使得训练这些模型所需要的时间成为深度学习的最大问题之一。
GPU
提供了可观的计算能力,使得中等规模的深度神经网络的训练时间大幅减少。
但是,对于使用海量数据进行训练的大型模型,使用单个
GPU
的训练时间还难以接
受。例如,在撰写本文时,使用单个
NVIDIA M40 GPU
,在基准
ImageNet
数据集上
对
ResNet-50
进行
90
个轮次的训练,需要
10
18
次单精度运算,需耗时 ...