过拟合问题,通常会考虑两种途径来解决:a) 减少特征的数量:b)
http://52opencourse.com/133/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%AD%A3%E5%88%99%E5%8C%96-regularization 斯坦福大学机器学习第七课"正则化“学习笔记,本次课程主要包括4部分: 1)The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函数) 3) Regularized Linear Regression(线性回归的正则化) 4) Regularized Logistic Regression(逻辑回归的正则化) 以下是每一部分的详细解读。 1)The Problem of Overfitting(过拟合问题) 拟合问题举例-线性回归之房价问题: a) 欠拟合(underfit,也称High-bias) b) 合适的拟合: c) 过拟合(overfit,也称High variance)
什么是过拟合(Overfitting): 如果我们有非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好,但是对于新数据预测的很差。 过拟合例子2-逻辑回归: 与上一个例子相似,依次是欠拟合,合适的拟合以及过拟合: a) 欠拟合 b) 合适的拟合 c) 过拟合 如何解决过拟合问题: 首先,过拟合问题往往源自过多的特征,例如房价问题,如果我们定义了如下的特征: 那么对于训练集,拟合的会非常完美: 所以针对过拟合问题,通常会考虑两种途径来解决: a)减少特征的数量: -人工的选择保留哪些特征; -模型选择算法(之后的课程会介绍) b) 正则化 -保留所有的特征,但是降低参数
-正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量; 2) Cost Function(成本函数) 依然从房价预测问题开始,这次采用的是多项式回归: a) 合适的拟合: b) 过拟合 直观来看,如果我们想解决这个例子中的过拟合问题,最好能将
假设我们对
这样在最小化Cost function的时候, 正则化: 参数 取小一点的值,这样的优点:-“简化”的hypothesis; -不容易过拟合; 对于房价问题: -特征包括: -参数包括: 我们对除 正式的定义-经过正则化的Cost Function有如下的形式: 其中称为正则化参数,我们的目标依然是最小化 例如,对于正则化的线性回归模型来说,我们选择 如果将 -算法依然会正常的工作,将 -算法在去除过拟合问题上会失败; -算法的结构将是欠拟合(underfitting),即使训练数据非常好也会失败; -梯度下降算法不一定会收敛; 这样的话,除了 关于正则化,以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述: 模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。 正则化符合奥卡姆剃刀(Occam's razor)原理。奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。 3) Regularized Linear Regression(线性回归的正则化) 线性回归包括成本函数,梯度下降算法及正规方程解法等几个部分,不清楚的读者可以回顾第二课及第四课的笔记,这里将分别介绍正则化后的线性回归的成本函数,梯度下降算法及正规方程等。 首先来看一下线性回归正则化后的Cost function: 我们的目标依然是最小化 注意,对于参数 同样的正规方程的表达式也需要改变,对于: X 是m * (n+1)矩阵 y是m维向量: 正则化后的线性回归的Normal Equation的公式为: 假设样本数m小于等于特征数x,如果没有正则化,线性回归Normal eqation如下: 如果 其中括号中的矩阵可逆。 4) Regularized Logistic Regression(逻辑回归的正则化) 和线性回归相似,逻辑回归的Cost Function也需要加上一个正则化项(惩罚项),梯度下降算法也需要区别对待参数(theta). 再次回顾一些逻辑回归过拟合的情况,形容下面这个例子: 其中Hypothesis是这样的: 逻辑回归正则化后的Cost Function如下: 梯度下降算法如下: 其中 参考资料:
第七课“正则化”的课件资料下载链接,视频可以在Coursera机器学习课程上观看或下载:
https://class.coursera.org/ml
PPT
PDF
李航博士《统计学习方法》 http://en.wikipedia.org/wiki/Regularization_%28mathematics%29 http://en.wikipedia.org/wiki/Overfitting (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |