Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化(Regular
斯坦福大学机器学习第七课"正则化“学习笔记,本次课程主要包括4部分: 1)The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函数) 3) Regularized Linear Regression(线性回归的正则化) 4) Regularized Logistic Regression(逻辑回归的正则化) 以下是每一部分的详细解读。
1)The Problem of Overfitting(过拟合问题) 拟合问题举例-线性回归之房价问题: a) 欠拟合(underfit,也称High-bias) b) 合适的拟合: c) 过拟合(overfit,也称High variance)
什么是过拟合(Overfitting): 如果我们有非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好(
过拟合例子2-逻辑回归: 与上一个例子相似,依次是欠拟合,合适的拟合以及过拟合: a) 欠拟合 b) 合适的拟合 c) 过拟合 如何解决过拟合问题: 首先,过拟合问题往往源自过多的特征,例如房价问题,如果我们定义了如下的特征: 那么对于训练集,拟合的会非常完美: 所以针对过拟合问题,通常会考虑两种途径来解决: a) 减少特征的数量: -人工的选择保留哪些特征; -模型选择算法(之后的课程会介绍) b) 正则化 -保留所有的特征,但是降低参数
-正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量; 2) Cost Function(成本函数) 依然从房价预测问题开始,这次采用的是多项式回归: a) 合适的拟合: b) 过拟合 直观来看,如果我们想解决这个例子中的过拟合问题,最好能将
假设我们对
这样在最小化Cost function的时候,
正则化: 参数
-“简化”的hypothesis; -不容易过拟合; 对于房价问题: -特征包括:
-参数包括:
我们对除
正式的定义-经过正则化的Cost Function有如下的形式: 其中
例如,对于正则化的线性回归模型来说,我们选择
如果将
-算法依然会正常的工作,将
-算法在去除过拟合问题上会失败; -算法的结构将是欠拟合(underfitting),即使训练数据非常好也会失败; -梯度下降算法不一定会收敛; 这样的话,除了
关于正则化,以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述:
3) Regularized Linear Regression(线性回归的正则化) 线性回归包括成本函数,梯度下降算法及正规方程解法等几个部分,不清楚的读者可以回顾第二课及第四课的笔记,这里将分别介绍正则化后的线性回归的成本函数,梯度下降算法及正规方程等。 首先来看一下线性回归正则化后的Cost function: 我们的目标依然是最小化
注意,对于参数
同样的正规方程的表达式也需要改变,对于: X 是m * (n+1)矩阵 y是m维向量: 正则化后的线性回归的Normal Equation的公式为: 假设样本数m小于等于特征数x,如果没有正则化,线性回归Normal eqation如下:
如果
其中括号中的矩阵可逆。 4) Regularized Logistic Regression(逻辑回归的正则化) 和线性回归相似,逻辑回归的Cost Function也需要加上一个正则化项(惩罚项),梯度下降算法也需要区别对待参数(theta). 再次回顾一些逻辑回归过拟合的情况,形容下面这个例子: 其中Hypothesis是这样的: 逻辑回归正则化后的Cost Function如下: 梯度下降算法如下:
参考资料:
第七课“正则化”的课件资料下载链接,视频可以在Coursera机器学习课程上观看或下载:https://class.coursera.org/ml
PPTPDF
李航博士《统计学习方法》 http://en.wikipedia.org/wiki/Regularization_%28mathematics%29 http://en.wikipedia.org/wiki/Overfitting (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |