矩阵链规则
首先, ,解释为什么我们可以用WT代替 在第 1 章的链式规则表达式中。
记住,L是字面意思:
在这里,这是一个事实的简称:
等等。让我们放大这些表达式中的一个。比如说,如果我们对 σ 进行偏导数运算,结果会是怎样? 关于 (的所有六个分量(这也是我们最终要对 )?
嗯,因为
不难看出,与 的偏导数:
由于XW11表达式中x11乘以的唯一值是w11,因此相对于其他值的偏导数为 0。
因此,计算σ(XW11)相对于X的所有元素的偏导数,可以得到以下总体表达式 :
同样,我们可以计算出σ(XW32) 相对于X 的每个元素的偏导数:
现在我们有了实际计算的所有组件 直接计算。我们只需计算与前面矩阵形式相同的六个矩阵,然后将结果相加即可。
请注意,数学运算再次变得混乱,不过并不复杂。你可以跳过下面的计算,直接看结论,结论最终是一个简单的表达式。但是,通过计算,你会更深刻地体会到结论是多么出人意料的简单。除了欣赏,生活还有什么意义呢?
这里只有两个步骤。首先,我们要明确写出 是上述六个矩阵之和: