scala – 如何在Spark中将RDD转换为RDD？

发布时间：2020-12-16 18:02:02 所属栏目：安全来源：网络整理

导读：我有一个文件,每一行都是这样的 info1,info2info3,info4... 扫描完之后,我想运行k-means算法： val rawData = sc.textFile(myFile) val converted = convertToVector(rawData) val kmeans = new KMeans() kmeans.setK(10) kmeans.setRuns(10) kmeans.setEpsi

我有一个文件,每一行都是这样的

info1,info2
info3,info4
...

扫描完之后,我想运行k-means算法：

val rawData = sc.textFile(myFile)
  val converted = convertToVector(rawData)
  val kmeans = new KMeans()
  kmeans.setK(10)
  kmeans.setRuns(10)
  kmeans.setEpsilon(1.0e-6)
  val model = kmeans.run(rawData) -> problem: k-means accepts only RDD<Vector>

因为k-means只接受RDD< Vector>,所以我创建了一个转换我的RDD< String>的函数. rawData到RDD< Vector>.但我不知道如何做到这一点,下面这个功能正在进行中：

def converToVector(rawData: RDD[String]): RDD[Vector] = {

    //TODO...
    val toConvert = rawData.collect().toVector
    val map = rawData.map {
      line => line.split(",").toVector
    }

    map
  }

有关如何实现这一目标的任何建议？

提前致谢.

解决方法

考虑到输入文件的每一行都是一个用逗号分隔的字符串表示的假设向量,这是一个非常基本的操作.

您只需映射每个字符串entrie,将其拆分在分隔符上,然后从中创建一个密集的Vector：

val parsedData = rawData.map(s => Vectors.dense(s.split(',').map(_.toDouble)))

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!