从贝叶斯角度,正则项等价于引入参数
w
的先验概率分布。常见的L1/L2正则,分别等价于引入先验信息:参数
w
符合均值为0的拉普拉斯分布/高斯分布。
- 贝叶斯方法的参数估计
- 后验概率的展开形式
- 参数的先验概率与正则项
- 模型举例
贝叶斯方法的参数估计
贝叶斯方法的参数估计,就是通过最大化后验概率来估计模型的参数。
假定模型参数为
w
,数据集为
D
,贝叶斯通过最大化后验概率估计模型参数
w
,即:
w=argmaxwp(w|D)=argmaxwp(w)p(D|w)P(D)=argmaxwp(w)p(D|w)
后验概率的展开形式
假定如下:
p(w)p(D|w)=∏i=1Kp(wi)∏i=1Np(Di|w)←∑i=1Klogp(wi)+∑i=1Nlogp(Di|w)
最新的优化问题为:
w=argminw?∑i=1Klogp(wi)?∑i=1Nlogp(Di|w)
参数的先验概率与正则项
当参数
w
的先验概率满足高斯分布:
p(wi)=N(wi|μ,σ2)=12πσ2????√e?(wi?μ)22σ2
优化问题的左项中,如果
w
满足
N(0,12λ)
:
?∑i=1Klogp(wi)=?∑i=1Klog12πσ2????√+∑i=1K(wi?μ)22σ2=const+∑i=1K(wi?μ)22σ2=const+λ∑i=1Kw2i
这时候的优化函数为:
w=argminwλ∑i=1Kw2i?∑i=1Nlogp(Di|w)
同样地,参数
w
的先验概率满足均值为0的拉普拉斯分布,有:
w=argminwλ∑i=1K|wi|?∑i=1Nlogp(Di|w)
这说明:
- L2正则,等价于参数
w
的先验分布满足均值为0的正态分布
- L1正则,等价于参数
w
的先验分布满足均值为0的拉普拉斯分布
- 拉普拉斯在0附近突出,周围稀疏,对应容易产生稀疏解的模型
模型举例
以参数
w
的先验概率满足均值为0的高斯分布为例,优化问题为:
w=argminwλ∑i=1Kw2i?∑i=1Nlogp(Di|w)
逻辑回归
?∑i=1Nlogp(Di|w)=?∑i=1Nlogθ(ynwTxn)=∑i=1Nlog(1+exp(?ynwTxn))
所以有:
w=argminwλ∑i=1Kw2i+∑i=1Nlog(1+exp(?ynwTxn))
总结:逻辑回归,通过贝叶斯法最大化后验概率。在数据的概率满足逻辑函数的假设下得到了cross entropy的误差函数;在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。
线性回归
线性回归,假设误差满足均值为0的高斯分布,该假设符合一般的规律。
p(Di|w)=12πσ2????√e?(wTxi?yi)22σ2
?∑i=1Nlogp(Di|w)=?∑i=1Nlog12πσ2????√e?(wTxi?yi)22σ2←∑i=1N(wTxi?yi)2
所以有:
w=argminwλ∑i=1Kw2i+∑i=1N(wTxi?yi)2
总结:线性回归,通过贝叶斯法最大化后验概率。在误差为均值0的高斯分布的假设下得到了square error的误差函数;在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。