Deep Learning - 第六章：深度学习的正则化

发布时间：2020-12-14 00:38:22 所属栏目：百科来源：网络整理

导读：前言机器学习中的核心问题：模型的设计不仅在训练数据上表现好，并且能在新输入上泛化好；正则化策略：以增大训练误差为代价，来减少测试误差（如果在训练误差上很小，可能出现过拟合的情况）；最好的拟合模型（最小化泛化误差的意义上）是一个适当正

前言

机器学习中的核心问题：模型的设计不仅在训练数据上表现好，并且能在新输入上泛化好；
正则化策略：以增大训练误差为代价，来减少测试误差（如果在训练误差上很小，可能出现过拟合的情况）；
最好的拟合模型（最小化泛化误差的意义上）是一个适当正则化的大型模型；

参数范数惩罚

许多正则化方法通过对目标函数 $J$ 添加一个参数范数惩罚 $Omega(theta)$ ，限制模型的学习能力，我们将正则化后的目标函数记为：

$J^(θ; X, y) = J (θ; X, y) + α ? Ω (θ)$ $hat J(theta;X, y) = J(theta;X, y) + alpha cdot Omega(theta)$
当我们的训练算法最小化正则化后的目标函数 $hat J$ 时，它会降低原始目标 $J$ 关于训练数据的误差并同时减小参数 $theta$ 的规模。
常见的参数正则化函数包括： $L^2$ ， $L^1$ 参数正则化。
$L^2$ 参数正则化：

$Ω (θ) = 1 2 | | ω | | 22$ $Omega(theta) = frac{1}{2}||omega||_2^2$
加入正则项后，经过具体的公式推导和分析可以知道（推算过程也不是很难懂的。）， $L^2$ 参数正则化能让学习深度学习的算法“感知”到具有较高方差的输入 $x$ ，因此 与目标的协方差较小（相对增加方差）的特征的权值将会收缩。
它是权重衰减一种最常见的方式！

$L^1$ 参数正则化：

$Ω (θ) = | | ω | | 1 = \sum i | ω i |$ $Omega(theta) = ||omega||_1 = sum_i |omega_i|$
加入正则项后，经过一些推导和分析，得到 $L^1$ 正则化会产生更加稀疏的解（参数具有0的最优值），它与 $L^2$ 正则化不同， $L^2$ 正则化不会使得某个权重为 $0$ ，而 $L^1$ 正则化有可能通过足够大的 $alpha$ 实现稀疏。
由 $L^1$ 正则化导出的稀疏性质已经被广泛地用于特征选择 机制，特征选择从可用的特征子集选择应该使用的子集，简化了机器学习问题。

特别是著名的 $LASSO(Tibshirani,1995)$ 模型将 $L^1$ 惩罚和线性模型结合，并使用最小二乘代价函数。 L1 惩罚使部分子集的权重为零，表明相应的特征可以被安全地忽略。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!