
624
|
附录
A
率。相反,逻辑回归分类器即使在数据集不是线性可分的情况下也可以很好地收敛,
而且还能输出分类的概率。如果你将感知器的激活函数修改为逻辑激活函数(或者
如果有多个神经元的时候,采用 softmax 激活函数),然后使用梯度下降训练它(或
者使成本函数最小化的一些其他优化算法,通常是交叉熵法),那么它就会变为一个
逻辑回归分类器了。
4. 逻辑激活函数是训练第一个 MLP 的关键因素,因为它的导数总是非零的,所以梯度
下降总是可以持续的。当激活功能是一个阶梯函数时,渐变下降就不能再持续了,
因为这时候根本没有斜率。
5. 常用的激活函数包括阶跃函数、逻辑(sigmoid)函数、双曲正切(tanh)函数和线
性整流(ReLU)函数(见图 10-8)。有关其他示例,请参见第 11 章,例如 ELU 和
ReLU 函数的各种变体。
6. 考虑问题中描述的 MLP :你有这样一个 MLP,其输入层由 10 个透传神经元组成,
隐藏层有 50 个人工神经元,输出层有 3 个人工神经元。所有的人工神经元都使用
ReLU 激活函数。输入矩阵
X
的形状是
m
×
10,其中
m
代表训练批次的大小。
a. 隐藏层的权重向量
W
h
的形状为 10
×
50,其偏置向量
b
h
的长度为 50。
b. 输出层的权重向量
W
o
的形状为 50
×
3,其偏置向量
b
o
的长度为 3。
c. 输出矩阵
Y
的形状是
m
×
3。
d.
Y
*=ReLU (ReLU(
X
W
h
+
b
h
)
W
o
+
b
o
)。回想一下 ReLU 函数只是把矩阵中的每个
负数都设置为零。注意