L1、L2正则化的区别
简单读了一些文章,总结一下L1和L2正则化的区别吧,似乎是非常容易被问到的一个问题。 L1,L2正则化机器学习中, 损失函数后面一般会加上一个额外项,常用的是l1-norm和l2-norm,即l1范数和l2范数。 可以看作是损失函数的惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
上面的目标函数,第一项是模型要最小化的误差,第二项是正则化项,λ>=0调节两者之间关系的系数。 正则化项可以取不同的形式。 L0范数 由于L0正则项非连续非凸不可求导,难以找到有效解,转而使用L1范数。 L1范数 L0和L1范数可以实现让参数矩阵稀疏,让参数稀疏的好处,可以实现对特征的选择(权重为0表示对应的特征没有作用,被丢掉),也可以增强模型可解释性(例如研究影响疾病的因素,只有少数几个非零元素,就可以知道这些对应的因素和疾病相关) L1又称Lasso。 L2范数
L2范数是指向量各个元素的平方,求和,然后再求平方根。 L2又称Ridge,也称岭回归。 小结公式:
区别: source文章同步在我的博客 Reference更多详细的公式,以及解释和分析,可参考
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |