贝叶斯方法与正则项

发布时间：2020-12-14 00:41:06 所属栏目：百科来源：网络整理

导读：从贝叶斯角度，正则项等价于引入参数 w 的先验概率分布。常见的L1/L2正则，分别等价于引入先验信息：参数 w 符合均值为0的拉普拉斯分布/高斯分布。贝叶斯方法的参数估计后验概率的展开形式参数的先验概率与正则项模型举例逻辑回归线性回归贝叶斯方法

从贝叶斯角度，正则项等价于引入参数 $w$ 的先验概率分布。常见的L1/L2正则，分别等价于引入先验信息：参数 $w$ 符合均值为0的拉普拉斯分布/高斯分布。

贝叶斯方法的参数估计
后验概率的展开形式
参数的先验概率与正则项
模型举例
- 逻辑回归
- 线性回归

贝叶斯方法的参数估计

贝叶斯方法的参数估计，就是通过最大化后验概率来估计模型的参数。

假定模型参数为 $w$ ，数据集为 $D$ ，贝叶斯通过最大化后验概率估计模型参数 $w$ ，即：

w = arg max w p (w | D) = arg max w p ( w ) p ( D | w ) P ( D ) = arg max w p (w) p (D | w)

$w = argmax_w p(w|D)= argmax_w frac{p(w) p(D|w) }{P(D)}=argmax_w p(w) p(D|w)$

后验概率的展开形式

假定如下：

样本独立不相关
模型参数独立不相关

p (w) p (D | w) = \prod i = 1 K p (w i) \prod i = 1 N p (D i | w) \leftarrow \sum i = 1 K log p (w i) + \sum i = 1 N log p (D i | w)

$begin{split} p(w)p(D|w) &= prod_{i=1}^K p(w_i) prod_{i=1}^N p(D_i|w) &leftarrow sum_{i=1}^K log p(w_i)+ sum_{i=1}^N log p(D_i|w) end{split}$

最新的优化问题为：

w = arg min w ? \sum i = 1 K log p (w i) ? \sum i = 1 N log p (D i | w)

$w = argmin_w - sum_{i=1}^K log p(w_i)- sum_{i=1}^N log p(D_i|w)$

参数的先验概率与正则项

当参数 $w$ 的先验概率满足高斯分布：

p (w i) = N (w i | μ, σ 2) = 1 2 π σ 2 ? ? ? ? \sqrt e ? ( w i ? μ ) 2 2 σ 2

$p(w_i) = N(w_i | mu,sigma^2) = frac{1}{sqrt{2pi sigma^2}} e^{-frac{(w_i-mu)^2}{2sigma^2}}$

优化问题的左项中，如果 $w$ 满足 $N(0,frac{1}{2lambda})$ ：

? \sum i = 1 K log p (w i) = ? \sum i = 1 K log 1 2 π σ 2 ? ? ? ? \sqrt + \sum i = 1 K ( w i ? μ ) 2 2 σ 2 = c o n s t + \sum i = 1 K ( w i ? μ ) 2 2 σ 2 = c o n s t + λ \sum i = 1 K w 2 i

$begin{split} - sum_{i=1}^K log p(w_i) &= - sum_{i=1}^K log frac{1}{sqrt{2pi sigma^2}} + sum_{i=1}^K frac{(w_i-mu)^2}{2sigma^2} &= const + sum_{i=1}^K frac{(w_i-mu)^2}{2sigma^2} &= const + lambda sum_{i=1}^K w_i^2 end{split}$

这时候的优化函数为：

w = arg min w λ \sum i = 1 K w 2 i ? \sum i = 1 N log p (D i | w)

$w = argmin_w lambda sum_{i=1}^K w_i^2 - sum_{i=1}^N log p(D_i|w)$

同样地，参数 $w$ 的先验概率满足均值为0的拉普拉斯分布，有：

w = arg min w λ \sum i = 1 K | w i | ? \sum i = 1 N log p (D i | w)

$w = argmin_w lambda sum_{i=1}^K |w_i| - sum_{i=1}^N log p(D_i|w)$

这说明：

L2正则，等价于参数 $w$ 的先验分布满足均值为0的正态分布
L1正则，等价于参数 $w$ 的先验分布满足均值为0的拉普拉斯分布
拉普拉斯在0附近突出，周围稀疏，对应容易产生稀疏解的模型

模型举例

以参数 $w$ 的先验概率满足均值为0的高斯分布为例，优化问题为：

w = arg min w λ \sum i = 1 K w 2 i ? \sum i = 1 N log p (D i | w)

$w = argmin_w lambda sum_{i=1}^K w_i^2 - sum_{i=1}^N log p(D_i|w)$

逻辑回归

? \sum i = 1 N log p (D i | w) = ? \sum i = 1 N log θ (y n w T x n) = \sum i = 1 N log (1 + exp (? y n w T x n))

$begin{split} - sum_{i=1}^N log p(D_i|w) &= - sum_{i=1}^N log theta(y_n w^T x_n) &=sum_{i=1}^N log (1+exp(-y_n w^T x_n) ) end{split}$

所以有：

w = arg min w λ \sum i = 1 K w 2 i + \sum i = 1 N log (1 + exp (? y n w T x n))

$w = argmin_w lambda sum_{i=1}^K w_i^2 +sum_{i=1}^N log (1+exp(-y_n w^T x_n) )$

总结：逻辑回归，通过贝叶斯法最大化后验概率。在数据的概率满足逻辑函数的假设下得到了cross entropy的误差函数；在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。

线性回归

线性回归，假设误差满足均值为0的高斯分布，该假设符合一般的规律。

p (D i | w) = 1 2 π σ 2 ? ? ? ? \sqrt e ? ( w T x i ? y i ) 2 2 σ 2

$p(D_i|w) = frac{1}{sqrt{2pi sigma^2}} e^{-frac{(w^Tx_i-y_i)^2}{2sigma^2}}$

? \sum i = 1 N log p (D i | w) = ? \sum i = 1 N log 1 2 π σ 2 ? ? ? ? \sqrt e ? ( w T x i ? y i ) 2 2 σ 2 \leftarrow \sum i = 1 N (w T x i ? y i) 2

$begin{split} - sum_{i=1}^N log p(D_i|w) &= - sum_{i=1}^N log frac{1}{sqrt{2pi sigma^2}} e^{-frac{(w^Tx_i-y_i)^2}{2sigma^2}} &leftarrow sum_{i=1}^N (w^Tx_i-y_i)^2 end{split}$

所以有：

w = arg min w λ \sum i = 1 K w 2 i + \sum i = 1 N (w T x i ? y i) 2

$w = argmin_w lambda sum_{i=1}^K w_i^2 +sum_{i=1}^N (w^Tx_i-y_i)^2$

总结：线性回归，通过贝叶斯法最大化后验概率。在误差为均值0的高斯分布的假设下得到了square error的误差函数；在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!