加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

数据预处理——标准化、归一化、正则化

发布时间:2020-12-14 06:13:22 所属栏目:百科 来源:网络整理
导读:三者都是对数据进行 预处理的方式 ,目的都是为了让数据 便于计算 或者 获得更加泛化的结果 ,但是不改变问题的本质。 标准化(Standardization) 归一化(normalization) 正则化(regularization) 归一化 我们在对数据进行分析的时候,往往会遇到单个数据

三者都是对数据进行预处理的方式,目的都是为了让数据便于计算或者获得更加泛化的结果,但是不改变问题的本质。

标准化(Standardization)

归一化(normalization)

正则化(regularization)

归一化

我们在对数据进行分析的时候,往往会遇到单个数据的各个维度量纲不同的情况,比如对房子进行价格预测的线性回归问题中,我们假设房子面积(平方米)、年代(年)和几居室(个)三个因素影响房价,其中一个房子的信息如下:

  • 面积(S):150 平方米
  • 年代(Y):5 年

这样各个因素就会因为量纲的问题对模型有着大小不同的影响,但是这种大小不同的影响并非反应问题的本质。

为了解决这个问题,我们讲所有的数据都用归一化处理至同一区间内。

正则化

这篇文章对于正则化的讲解通俗易懂:https://www.zhihu.com/question/20924039

正则化主要用于防止过拟合

我们在训练模型时,要最小化损失函数,这样很有可能出现过拟合的问题(参数过多,模型过于复杂),所以我么在损失函数后面加上正则化约束项,转而求约束函数和正则化项之和的最小值

上式中,蓝色部分即为损失函数,红色部分是正则化项(参数的2-范数)

标准化

标准化也是将样本的特征转化只同一量纲下的一种方法,标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布

但是在机器学习的数据预处理中,归一化和正则化更为常用。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读