数据处理之数据不平衡问题
最近有被频繁的问到数据不平衡(样本比例失衡)问题,而这一部分在日常数据处理中也算是比较重要的一部分了,处理的好坏对后续的模型训练结果还是会有很大的影响的,今天就专门归纳总结一下,以供以后参考。 1.数据不平衡概述1.1 数据不平衡介绍数据不平衡,又称样本比例失衡。对于二分类问题,在正常情况下,正负样本的比例应该是较为接近的,很多现有的分类模型也正是基于这一假设。但是在某些特定的场景下,正负样本的比例却可能相差悬殊,如社交网络中的大V判断、电商领域的恶意差评检测、金融领域的欺诈用户判断、风控领域的异常行为检测、医疗领域的肿瘤诊断等。 1.2 数据不平衡的常见形式及特点根据数据量的多少和数据不平衡程度,可以将数据不平衡问题分为以几类: (1)大数据+轻微数据不平衡(正负样本数量相差在一个数量级内) 如豆瓣上的电影评分数据分布等,此类问题常见的机器学习模型即可解决,无须额外处理。 (2)小数据 + 轻微数据不平衡(正负样本数量相差在一个数量级内) 此类问题可以通过加随机扰动的上采样方法处理。 (3)大数据 + 中度数据不平衡(正负样本数量相差在两个个数量级内) 此类问题可以通过下采样的方法处理。 (4)小数据 + 中微数据不平衡(正负样本数量相差在两个数量级内) (5)大数据 + 重度数据不平衡(正负样本数量相差超过两个数量级) 如金融领域的欺诈用户判断,风控领域的异常行为检测 (6)小数据 + 重度度数据不平衡(正负样本数量相差超过两个数量级) 2.常见的解决办法2.1 数据采样数据采样通过对原始数据集进行处理,使各类别数据比例维持在一个合理的比例。可分为上采样和下采样。 2.2 数据合成2.3 加权2.4 一分类(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |