L0,L1,L2正则化－－广义线性模型

发布时间：2020-12-14 04:20:46 所属栏目：百科来源：网络整理

导读：特点正则化项即罚函数，该项对模型向量进行“惩罚”，从而避免单纯最小二乘问题的过拟合问题。训练的目的是最小化目标函数，则C越小，意味着惩罚越小，分类间隔也就越小，分类错误也就越少。 L0范数表示向量中非零元素的个数 L1正则化表示各个参数绝对值之

特点

正则化项即罚函数，该项对模型向量进行“惩罚”，从而避免单纯最小二乘问题的过拟合问题。训练的目的是最小化目标函数，则C越小，意味着惩罚越小，分类间隔也就越小，分类错误也就越少。

L0范数表示向量中非零元素的个数
L1正则化表示各个参数绝对值之和。
L1正则化使得模型稀疏的权值。

L2正则化标识各个参数的平方的和的开方值。
L2使得模型可以得到平滑的权值，参数更趋近于0，提高泛化能力。

形式与推导

L1 regularization（往0方向靠)

原始的代价函数是：

C 0 = C 0

$C_0=C_0$
更新

w $w$ ：

w' = w ? η ? C 0 ? w

$w^{'}=w-etafrac{partial C_0}{partial w}$

而在进行L1正则化处理后，在原始的代价函数后面加上一个L1正则化项，即所有权重w的绝对值的和，乘以λ/n。数学形式：

C = C 0 + λ n \sum w | w |

$C=C_0+frac{lambda}{n}sum_{w} |w|$

对上式求导：

? C ? w = ? C 0 ? w + λ n s g n (w)

$frac{partial C}{partial w} = frac{partial C_0}{partial w} + frac{lambda}{n}sgn(w)$

$sgn(w)$ 是w的符号函数
$w$ 更新 $wrightarrow w^{'}$ :

w' = w ? η ? C 0 ? w ? η λ n s g n (w)

$w^{'} = w - etafrac{partial C_0}{partial w}-frac{etalambda}{n}sgn(w)$

相比没有L1正则化，新的权重比之前的多出 $frac{etalambda}{n}sgn(w)$ 。

当w为正时，更新后的w变小。当w为负时，更新后的w变大。因此它的效果就是让更新后的w不断往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。

L2 regularization（权重衰减）
L2正则化就是在代价函数后面再加上一个正则化项（ $frac{1}{2}$ 的作用是为了便于求导后不存在2这个数字）：

C = C 0 + λ 2 n \sum w w 2

$C = C_0 + frac{lambda}{2n}sum_{w}w^2$
对上式求导：

? C ? w = ? C 0 ? w + λ n w

$frac{partial C}{partial w} = frac{partial C_0}{partial w} + frac{lambda}{n}w$

? C p a r t i a l b = ? C 0 ? b

$frac{partial C}{partial b} = frac{partial C_0}{partial b}$

可见，L2的正则化对于 $b$ 的更新无影响，w进行如下更新：

w' = w ? η ? C 0 ? w ? η λ n w

$w^{'} = w - etafrac{partial C_0}{partial w} - etafrac{lambda}{n}w$

= (1 ? η λ n w ? η ? C 0 ? w)

$=(1- frac{etalambda}{n}w - etafrac{partial C_0}{partial w})$

在不使用L2正则化时，求导结果中w前系数为1，现在 $w$ 前面系数为 $1?frac{etalambda}{n}$ ，因为 $eta$ 、 $lambda$ 、n都是正的， $1?frac{etalambda}{n}$ 小于1，它的效果是减小w，即权重衰减（weight decay）。

广义线性模型

线性回归的形式：

y ? (w, x) = w 0 + w 1 x 1 + . . . + w p x p

$hat{y}(w,x) = w_0 + w_1 x_1 + ... + w_p x_p$
其中，向量

w=(w1,…,wp) $w = (w_1,…,w_p)$ 作为系数，

w0 $w_0$ 作为截距。

普通最小二乘法（Ordinary Least Squares）

目标函数：

m i n w | | X w ? y | | 2 2

$underset{w}{min,} {|| X w - y||_2}^2$
scikit-learn 实现此模型的方法：

sklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)

示例：

from sklearn import linear_model
clf = linear_model.LinearRegression()
clf.fit ([[0,0],[1,1],[2,2]],[0,1,2])
LinearRegression(copy_X=True,fit_intercept=True,n_jobs=1,normalize=False)
clf.coef_
＃array([ 0.5,0.5])

但是，普通最小二乘法的系数估计依赖模型terms之间的独立性，当terms是相关的，并且设计的X矩阵的列有近似线性相关,设计的矩阵变得更接近奇异，结果是,最小平方估计在观察到的反应对随机误差变得非常敏感,产生较大的反差. 多重共线性的这种情况更加，例如，数据在没有实验性的设计下收集。

岭回归（Ridge Regression）

岭回归通过使用同系数大小的惩罚函数，解决了部分普通最小二乘法中的问题。岭系数最小化惩罚残差和。

m i n w | | X w ? y | | 2 2 + α | | w | | 2 2

$underset{w}{min,} {{|| X w - y||_2}^2 + alpha {||w||_2}^2}$

$alpha geq 0$ 是一个控制收缩总量的复杂参数: $alpha$ 越大，收缩总量越大，因此系数对于共线性变得更加稳健。

原理同上面推到的 L2 正则化。

sklearn.linear_model.Ridge(alpha=1.0,fit_intercept=True,max_iter=None,tol=0.001,solver='auto',random_state=None)

from sklearn import linear_model
clf = linear_model.Ridge (alpha = .5)
clf.fit ([[0,[0,1]],.1,1]) 
Ridge(alpha=0.5,copy_X=True,max_iter=None,normalize=False,random_state=None,tol=0.001)
clf.coef_
＃array([ 0.34545455,0.34545455])
clf.intercept_ 
＃0.13636...

Lasso

套索算法是一个估计稀疏系数的线性模型。由于它倾向于解决较少的参数值，它在某些情况下时有效的，有效地较少解决方法说依赖的变量数。正是由于这个原因，Lasso以及它的变体是压缩感知领域的基础. 在特定的情况下,它能复原确定的非0权值数集(查看压缩感知: tomography reconstruction with L1 prior (Lasso)).
在数学上,它包含了一个线性模型，训练 $ell_1$ （L1）优先值作为正则化. 目标函数是最小化:

m i n w 1 2 n s a m p l e s | | X w ? y | | 22 + α | | w | | 1

$underset{w}{min,} { frac{1}{2n_{samples}} ||X w - y||_2 ^ 2 + alpha ||w||_1}$

sklearn.linear_model.Lasso(alpha=1.0,precompute=False,max_iter=1000,tol=0.0001,warm_start=False,positive=False,random_state=None,selection='cyclic')

from sklearn import linear_model
clf = linear_model.Lasso(alpha = 0.1)
clf.fit([[0,1])
Lasso(alpha=0.1,positive=False,precompute=False,selection='cyclic',warm_start=False)
clf.predict([[1,1]])
#array([ 0.8])

Elastic Net

ElasticNet 是一个线性回归模型，训练以 L1，L2正则化作为正则项。这种组合使得学习一个较少
权值像Lasso是非0稀疏模型，同时保持着Ridge的正则化属性。通过使用l1_ratio参数来控制L1和L2的凸组合.
Elastic-net 在多重与另外一个特征相关联的特征时是很有效果的。 Lasso只能实现其中一种特点，但elastic-net更容易拥有以上两个特点。
一个实际关于 Lass和Ridge取舍的优点是，它能让Elastic-Net 继承某些 Ridge在循环下的稳定性。
在这种情况下，目标函数是最小化：

m i n w 1 2 n s a m p l e s | | X w ? y | | 22 + α ρ | | w | | 1 + α ( 1 ? ρ ) 2 | | w | | 22

$underset{w}{min,} { frac{1}{2n_{samples}} ||X w - y||_2 ^ 2 + alpha rho ||w||_1 + frac{alpha(1-rho)}{2} ||w||_2 ^ 2}$

sklearn.linear_model.ElasticNet(alpha=1.0,l1_ratio=0.5,selection='cyclic')[source]

参考文章：
L0,L1,L2正则化浅析
http://www.52php.cn/article/p-ghjzqxtq-ban.html

怎么理解在模型中使用L1+L2正则化
https://www.zhihu.com/question/38081976

正则化方法：L1和L2 regularization、数据集扩增、dropout
http://www.52php.cn/article/p-wuohknap-bq.html

机器学习：L1与L2正则化项
http://www.52php.cn/article/p-zuvvujdp-bcg.html

Generalized Linear Models
http://scikit-learn.org/stable/modules/linear_model.html

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!