scala – Spark:如何在LabeledPoint上执行欠采样?
发布时间:2020-12-16 18:05:58 所属栏目:安全 来源:网络整理
导读:我的LabeledPoint中有一些不平衡的数据.我想做的是选择所有正面和n次负面(随机).例如,如果我有100个阳性和30000个阴性,我想创建新的LabeledPoint,其中包含所有100个阳性和300个阴性(n = 3). 在实际情况中,我并没有在开始时有多少积极和消极. 解决方法 据推测
我的LabeledPoint中有一些不平衡的数据.我想做的是选择所有正面和n次负面(随机).例如,如果我有100个阳性和30000个阴性,我想创建新的LabeledPoint,其中包含所有100个阳性和300个阴性(n = 3).
在实际情况中,我并没有在开始时有多少积极和消极. 解决方法
据推测,您的数据是RDD [LabeledPoint].您可以执行以下操作:
val pos = rdd.filter(_.label==1) val numPos=pos.count() val neg = rdd.filter(_.label==0).takeSample(false,numPos*3) val undersample = pos.union(neg) 您可以找到takeSample,filter和union here的文档. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |