数据预处理——标准化、归一化、正则化

发布时间：2020-12-14 06:13:22 所属栏目：百科来源：网络整理

导读：三者都是对数据进行预处理的方式，目的都是为了让数据便于计算或者获得更加泛化的结果，但是不改变问题的本质。标准化（Standardization）归一化（normalization）正则化（regularization）归一化我们在对数据进行分析的时候，往往会遇到单个数据

三者都是对数据进行预处理的方式，目的都是为了让数据便于计算或者获得更加泛化的结果，但是不改变问题的本质。

标准化（Standardization）

归一化（normalization）

正则化（regularization）

归一化

我们在对数据进行分析的时候，往往会遇到单个数据的各个维度量纲不同的情况，比如对房子进行价格预测的线性回归问题中，我们假设房子面积（平方米）、年代（年）和几居室（个）三个因素影响房价，其中一个房子的信息如下：

这样各个因素就会因为量纲的问题对模型有着大小不同的影响，但是这种大小不同的影响并非反应问题的本质。

为了解决这个问题，我们讲所有的数据都用归一化处理至同一区间内。

这篇文章对于正则化的讲解通俗易懂：https://www.zhihu.com/question/20924039

正则化主要用于防止过拟合

我们在训练模型时，要最小化损失函数，这样很有可能出现过拟合的问题（参数过多，模型过于复杂），所以我么在损失函数后面加上正则化约束项，转而求约束函数和正则化项之和的最小值。

上式中，蓝色部分即为损失函数，红色部分是正则化项（参数的2-范数）

标准化也是将样本的特征转化只同一量纲下的一种方法，标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。

但是在机器学习的数据预处理中，归一化和正则化更为常用。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!