许多正则化方法通过对目标函数
J
添加一个参数范数惩罚
Ω(θ)
,限制模型的学习能力,我们将正则化后的目标函数记为:
J^(θ;X,y)=J(θ;X,y)+α?Ω(θ)
当我们的训练算法最小化正则化后的目标函数
J^
时,它会降低原始目标
J
关于训练数据的误差并同时减小参数
θ
的规模。
常见的参数正则化函数包括:
L2
,
L1
参数正则化。
L2
参数正则化:
Ω(θ)=12||ω||22
加入正则项后,经过具体的公式推导和分析可以知道(推算过程也不是很难懂的。),
L2
参数正则化能让学习深度学习的算法“感知”到具有较高方差的输入
x
,因此
与目标的协方差较小(相对增加方差)的特征的权值将会收缩。
它是权重衰减一种最常见的方式!
L1
参数正则化:
Ω(θ)=||ω||1=∑i|ωi|
加入正则项后,经过一些推导和分析,得到
L1
正则化会产生更加稀疏的解(参数具有0的最优值),它与
L2
正则化不同,
L2
正则化不会使得某个权重为
0
,而
L1
正则化有可能通过足够大的
α
实现稀疏。
由
L1
正则化导出的稀疏性质已经被广泛地用于特征选择 机制,特征选择从可用的特征子集选择应该使用的子集,简化了机器学习问题。
特别是著名的
LASSO(Tibshirani,1995)
模型将
L1
惩罚和线性模型结合,并使用最小二乘代价函数。
L1
惩罚使部分子集的权重为零,表明相应的特征可以被安全地忽略。