机器学习笔记（三）——正则化最小二乘法

发布时间：2020-12-14 04:33:39 所属栏目：百科来源：网络整理

导读：一. 模型的泛化与过拟合在上一节中，我们的预测函数为： f ( x ; ω ) = ω T x 其中， x = [ x 1 ] , ω = [ ω 1 ω 0 ] 上述称为线性模型，我们也可以将 x 扩展为： x = ? ? ? ? ? ? ? ? ? x n ? x 2 x 1 ? ? ? ? ? ? ? ? ? , ω = ? ? ? ? ? ? ? ? ? ω

一. 模型的泛化与过拟合

在上一节中，我们的预测函数为：

f (x; ω) = ω T x

$f(x;omega) = omega^Tx$
其中，

x = [x 1], ω = [ω 1 ω 0]

$x=begin{bmatrix} x 1 end{bmatrix},omega=begin{bmatrix} omega_1 omega_0 end{bmatrix}$
上述称为线性模型，我们也可以将

x $x$ 扩展为：

x = ? ? ? ? ? ? ? ? ? x n ? x 2 x 1 ? ? ? ? ? ? ? ? ?, ω = ? ? ? ? ? ? ? ? ? ω n ? ω 2 ω 1 ω 0 ? ? ? ? ? ? ? ? ?

$x=begin{bmatrix} x^n vdots x^2 x 1 end{bmatrix},omega=begin{bmatrix} omega_n vdots omega_2 omega_1 omega_0 end{bmatrix}$
那么预测函数

f(x;w) $f(x;w)$ 就变为一个非线性函数。预测函数的次数越高，越能准确地拟合训练数据。在某些情况下，高次预测函数会拟合大部分或全部训练数据，这时，我们就说这个模型过拟合。因为这种过度拟合训练数据的模型对未知数据的预测就不是那么准确了，它对训练数据外的其它数据是相当敏感的，也就是说它不够泛化。所以我们需要一个最好的模型，也就是说我们需要的模型误差要最小，而且还有一定的泛化能力。

二. 正则化最小二乘法

要避免模型过拟合，我们可以选择部分数据进行模型的训练，也可以利用正则化方法。一般来讲，正则化，有L1正则和L2正则，它们都是基于 $L_p$ 范数的:

L p = (\sum i n | x i | p) 1 p

$L_p=(sum_i^nvert x_ivert ^p)^frac{1}{p}$
这里我们选择模型的复杂度为L2正则：

∑niω2i $sum_i^nomega_i^2$ ,写为向量形式为：

ωTω。 $omega^Tomega。$ 关于正则化的详细内容，可以参考：
http://www.52php.cn/article/p-ewwyltlp-ue.html

那么我们新的损失函数可以写为：

L' = L + λ ω T ω = 1 N (ω T X T X ω ? 2 ω T X T y + y T y) + λ ω T ω

$begin{align} L' &= L+boldsymbol{lambdaomega^Tomega} &=frac{1}{N}(boldsymbol{omega^TX^TXomega-2omega^TX^Ty+y^Ty})+lambdaboldsymbol{omega^Tomega} end{align}$
同样的对上式求偏导数：

? L ? ω = 1 N (2 X T X ω ? 2 X T y) + 2 λ ω = 0 ? (X T X + N λ I) ω = X T y ? ω = (X T X + N λ I) ? 1 X T y

$frac{partial{L}}{partial{boldsymbol{omega}}}=frac{1}{N}(2boldsymbol{X^TXomega-2X^Ty})+2lambdaboldsymbol{omega}=0 Rightarrow (boldsymbol{X^TX}+Nlambdaboldsymbol{I})omega=boldsymbol{X^Ty} Rightarrow boldsymbol{omega}=(boldsymbol{X^TX}+Nlambdaboldsymbol{I})^{-1}boldsymbol{X^Ty}$
选择

λ $lambda$ 的值就是选择多项式拟合函数时，折中过拟合/泛化的过程。值太小，过拟合；值太大，不利于数据的逼近。至于

λ $lambda$ 的选择，可以采用交叉验证获得最好预测性能的

λ 。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!