scala – 如何在Apache Spark中编码分类功能
发布时间:2020-12-16 18:44:18 所属栏目:安全 来源:网络整理
导读:我有一组数据,我想根据这些数据创建一个分类模型.每行都有以下形式: user1,class1,product1user1,product2user1,product5user2,product2user2,product5user3,class2,product1 大约有1M个用户,2个类和1M个产品.我接下来要做的是创建稀疏向量(MLlib已经支持的
我有一组数据,我想根据这些数据创建一个分类模型.每行都有以下形式:
user1,class1,product1 user1,product2 user1,product5 user2,product2 user2,product5 user3,class2,product1 大约有1M个用户,2个类和1M个产品.我接下来要做的是创建稀疏向量(MLlib已经支持的东西)但为了应用该函数,我必须首先创建密集向量(使用0).换句话说,我必须将数据二进制化.这样做最简单(或最优雅)的方式是什么? 鉴于我是MLlib的新手,请问您提供一个具体的例子?我正在使用MLlib 1.2. 编辑 我最终得到了以下一段代码,但事实证明是非常慢……除了提供我只能使用MLlib 1.2之外的任何其他想法? val data = test11.map(x=> ((x(0),x(1)),x(2))).groupByKey().map(x=> (x._1,x._2.toArray)).map{x=> var lt : Array[Double] = new Array[Double](test12.size) val id = x._1._1 val cl = x._1._2 val dt = x._2 var i = -1 test12.foreach{y => i += 1; lt(i) = if(dt contains y) 1.0 else 0.0} val vs = Vectors.dense(lt) (id,cl,vs) } 解决方法
你可以使用spark.ml的
OneHotEncoder.
你首先使用: OneHotEncoder.categories(rdd,categoricalFields) 其中categoricalField是RDD包含分类数据的索引序列.给定数据集和作为分类变量的列索引的类别返回一个结构,对于每个字段,该结构描述数据集中存在的值.该映射旨在用作编码方法的输入: OneHotEncoder.encode(rdd,categories) 返回你的矢量化RDD [Array [T]]. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |