[bigdata-123] 一般形式的反向传导算法BP最简推导-1

发布时间：2020-12-14 04:58:20 所属栏目：大数据来源：网络整理

导读：1.神经网络结构设神经网络的层数是 p ， p ≥ 3 。神经网络有三种层：一个输入层，若干个隐层，一个输出层，分别简称 L 1 ， L 2 ，…， L p 。设每层神经元数量分别是 d 1 ， d 2 ，…， d p 。每个神经元的应激函数是 f ( x ) 。 2.分析第一层和第二层

1.神经网络结构
设神经网络的层数是 p ， p≥3 。
神经网络有三种层：一个输入层，若干个隐层，一个输出层，分别简称 L1 ， L2 ，…， Lp 。
设每层神经元数量分别是 d1 ， d2 ，…， dp 。每个神经元的应激函数是 f(x) 。

2.分析第一层和第二层并推导全局变量
设一个样本是 x∈Rd1×1 ，它从 L1 层输入。

设 L1 和 L2 之间的连接权重矩阵是 W1 ，那么:

W 1 \in R d 2 \times d 1

W1 的第一行就是:

W 1 [1 :] = [W 1 1, 1, W 1 1, 2, . . ., W 1 1, d 2]

其中，

W11,i ，就是

L1 层的第

i 个神经元和第

L2 层的第1个神经元的权重系数。

那么， L2 的第一个神经元的激活值，就是:

a 21 = f (W 1 [1 :] x + b 11)

令 z21=W1[1:]x+b11 ，上式又可以写为：

a 21 = f (z 21)

更进一步地， L2 的每个神经元激活值可以写为:

a 2 i = f (W 1 [i :]) x + b 1 i), i = 1, . . ., d 2

更进一步地，

Lj+1 层的每个神经元激活值可以写为：

a j + 1 i = f (W j [i :]) x + b j i), i = 1, . . ., d j + 1

为简便起见，令

z j + 1 i = W j [i :]) x + b j i

则：

a j + 1 i = f (z j + 1 i), i = 1, . . ., d j

对于输出层

L1 ，

j=1 ，

a1i 可以视为样本

x 的第

i 分量。

3.反向传播

3.1 代价函数
设训练集是 {(x1,y1),(x2,y2),...,(xm,ym)} ，其中， yk∈Rdp×1 ，这显而易见，输出层的神经元是 dp 个。

研究一个样本 (xk,yk) ，对它而言，代价函数是：

J (W 1, W 2, b 1, b 2; x k, y k) = 1 2 ∥ h W 1, W 2, b 1, b 2 (x k) ? y k ∥ 2 = 1 2 \sum q = 1 d p (y k q ? f (z p, k q)) 2

其中，

ykq 表示，第

yk 的第

q 个分量。

为简便起见，也可以写成

J (W, b; x k, y k) = 1 2 \sum q = 1 d p (y k q ? f (z p q)) 2

考虑整个训练集，代价函数是：

J (W, b) = \sum k = 1 m J (W, b; x k, y k)

考虑到对 W1 和 W2 进行正则化，以避免过拟合，代价函数是：

J (W, b) = \sum k = 1 m J (W, b; x k, y k) + λ 2 \sum l = 1 p ? 1 \sum i = 1 d l \sum j = 1 d l + 1 (W l j, i) 2

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!