处理数据缺失的方法小结

发布时间：2020-12-14 02:23:00 所属栏目：大数据来源：网络整理

导读：由于一些主观或者客观的因素，在实际工作中初步拿到的数据往往会含有缺失值，有时可能缺失值占得比例还不

由于一些主观或者客观的因素，在实际工作中初步拿到的数据往往会含有缺失值，有时可能缺失值占得比例还不小。在这种情况下，有必要采取相对合理的方法来处理这些缺失项。

对于数据缺失现象，首先需要考虑的就是数据缺失产生的原因以及这些缺失的数据项对解决实际问题（即问题的建模）会造成多大的影响。具体需要搞明白以下几个问题：

（1）缺失数据所占的比例有多大？
（2）缺失数据是集中在少数的几个变量中，还是普遍分布？
（3）缺失的产生是由什么原因造成的？
（4）缺失数据对应的变量之间，以及和其他的变量（包括预测变量和观测变量）是否存在相关性？

数据缺失可以由多种原因造成。拿填写调查问卷来说，可能是由于某些项对于某些填写人来说比较敏感，从而拒绝填写；也可能是由于调查问卷又臭又长，导致后面的一些项都没有被填写；也可能是数据在汇总的时候某些用户的一些填写项被遗漏了，等等。。。

大体来说，产生数据缺失的原因可以分为以下三类：（引自《R语言实战》）

（1）完全随机缺失(MCAR)，若某变量的缺失数据与其他任何观测或未观测变量都不相关，则数据为完全随机缺失（MCAR）。举个栗子，在一个问卷调查中，发现一些项常常一同缺失。很明显这些项聚集在一起，因为调查对象没有意识到问卷的第三页的背面也包含了这些项目。此时，可以认为这些数据是完全随机缺失。

（2）随机缺失（MAR），若某变量上的缺失数据与其他观测变量相关，与它自己的未观测值不相关，则数据为随机缺失。举个栗子，在一个关于全球领导风格的调查中，学历变量经常性地缺失。调查显示，欧洲的调查对象更可能在此项目上留白，这说明某些特定国家的调查对象没有理解变量的分类。此时，这种数据最可能是随机缺失。

（3）非随机缺失（NMAR），若缺失数据不属于MCAR或MAR，则数据为非随机缺失。举个栗子，在一个抑郁症调查的研究中发现，相对于年轻的病人，越老的病人越可能忽略描述抑郁状态的项。经过访谈发现，越年老的病人越不情愿承认他们的症状。此时，可以认为这种数据是非随机缺失。

一般来讲，如果有一小部分缺失数据（如小于10%）随机分布在整个数据集中，那么通过分析数据完整的实例，仍可以得到可靠且有效的结果。如果可以假定数据是MCAR或者MAR，还可以应用多重插补法来获得有效的结论。如果数据是NMAR，则需要借助专门的方法，重新收集新数据。

由于我们在实际建模时都是假定样本数据是完整的，因此在数据处理阶段必须要消除原始数据中的缺失数据项。总的来说，可以有以下三种处理办法。

（1）基于变量之间的数学关系，或者变量间的推导关系，对缺失的数据项进行恢复。能通过变量间的推理关系来消除缺失值是再好不过了，这样得到的结果往往非常准确，不过技巧性比较器，对数据的敏感性和业务的理解要好。举个栗子，缺失值对应的变量为年龄，而还有一个变量为出生日期，那么显然可通过出生日期来得出缺失的年龄值；再举个栗子，缺失属性为“该人是否是领导”，而还有个属性为“该人的下属个数”，则若其下属个数不为0，则可知该人便为领导。

（2）基于删除的方法，一般采用最简单的行删除策略；

（3）基于多重插补(MI)的方法，这种方法通常是假设缺失值对应的变量是可以通过其他变量（包括其他预测变量和目标变量）来进行预测，也可以设计自己的插补修正法，如对于金融时间序列的数据，通常会存在明显的自相关性和滞后性，因此可以基于前后某些相关的数据进行修正（直接取平均或者加权平均等等）。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!