[bigdata-124] 一般形式的反向传导算法BP最简推导-2

发布时间：2020-12-14 04:58:18 所属栏目：大数据来源：网络整理

导读：3.2 梯度下降训练神经网络，就是让 J ( W , b ) 的值最

3.2 梯度下降
训练神经网络，就是让 J(W,b) 的值最小。解法就是梯度下降，或者随机梯度下降。
梯度下降法的迭代公式是：

(W l j, i) s + 1 = (W l j, i) s ? η ? J ( W , b ) ? W l j , i ∣ W l j, i = (W l j, i) s

(b l j) s + 1 = (b l j) s ? η ? J ( W , b ) ? b l j ∣ b l i = (b l j) s

其中，

s 是迭代次数，

η 是学习速率。

上两式的一阶偏导又可以写成：

? J ( W , b ) ? W l j , i = \sum k = 1 m ? ? W l j , i J (W, b; x k, y k) + λ W l j, i

? J ( W , b ) ? b l j = \sum k = 1 m ? ? b l j J (W, b; x k, y k)

3.2.1 输出层 Lp 和隐层 Lp?1 之间的权重矩阵 Wp?1 一阶偏导求解并推广到一般情形
先推导一个具体的权重，也就是最后一个隐层的第二个神经元跟输出层的第一个神经元之间的权重，然后再扩展到一般形式：

? J ( W , b ) ? W p ? 1 1 , 2 = \sum k = 1 m ? ? W p ? 1 1 , 2 J (W, b; x k, y k) + λ W p ? 1 1, 2 = 1 2 \sum k = 1 m ? ? W p ? 1 1 , 2 (\sum q = 1 d p (y k q ? f (z p, k q)) 2) + λ W p ? 1 1, 2 = \sum k = 1 m \sum q = 1 d p (? (y k q ? f (z p, k q)) f' (z p, k q) ? z p , k q ? W p ? 1 1 , 2) + λ W p ? 1 1, 2 = \sum k = 1 m \sum q = 1 d p (δ p, k q ? z p , k q ? W p ? 1 1 , 2) + λ W p ? 1 1, 2 = \sum k = 1 m δ p, k 1 a p ? 1, k 2 + λ W p ? 1 1, 2

其中， δp,kq=?(ykq?f(zp,kq))f′(zp,kq) 是简便写法。

进一步地， Wp?1 的权重系数一阶偏导如下：

? J ( W , b ) ? W p ? 1 j , i = \sum k = 1 m δ p, k j a p ? 1, k i + λ W p ? 1 j, i

更进一步地， Wl 的权重系数一阶偏导如下：

? J ( W , b ) ? W l j , i = \sum k = 1 m δ l + 1, k j a l, k i + λ W l j, i

3.2.2 输出层 Lp 和隐层 Lp?1 之间的bias矩阵 bp?1 一阶偏导求解并推广到一般情形
先推导一个具体的bias，也就是最后一个隐层的第二个神经元跟输出层的第一个神经元之间的bias，然后再扩展到一般形式：

? J ( W , b ) ? b p ? 1 1 = \sum k = 1 m ? ? b p ? 1 1 J (W, b; x k, y k) = \sum k = 1 m ? ? b p ? 1 1 (1 2 \sum q = 1 d p (y k q ? f (z p, k q)) 2) = \sum k = 1 m \sum q = 1 d p (? (y k q ? f (z p, k q)) f' (z k q) ? z k q ? b p ? 1 1) = \sum k = 1 m (? (y k q ? f (z p, k 1)) f' (z k 1) ? z k 1 ? b p ? 1 1) = \sum k = 1 m δ p, k 1

进一步地，输出层和隐层之间的bias矩阵一阶偏导的一般形式是：

? J ( W , b ) ? b p ? 1 j = \sum k = 1 m δ p, k j

更进一步地，所有层的bias矩阵一阶偏导的一般形式是：

? J ( W , b ) ? b l j = \sum k = 1 m δ l + 1, k j

3.2.3 梯度下降法最终迭代公式

(W l j, i) s + 1 = (W l j, i) s ? η (\sum k = 1 m δ l + 1, k j a l, k i + λ W l j, i) ∣ W l j, i = (W l j, i) s

(b l j) s + 1 = (b l j) s ? η (\sum k = 1 m δ l + 1, k j) ∣ W l j, i = (W l j, i) s

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!