加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – 如何并行化RDD?

发布时间:2020-12-16 18:41:19 所属栏目:安全 来源:网络整理
导读:要将文件读入内存,我使用: val lines = sc.textFile("myLogFile*") 其类型: org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at console:12 阅读Scala文档:http://spark.apache.org/docs/0.9.1/scala-programming-guide.html#parallelized-
要将文件读入内存,我使用:

val lines = sc.textFile("myLogFile*")

其类型:

org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:12

阅读Scala文档:http://spark.apache.org/docs/0.9.1/scala-programming-guide.html#parallelized-collections
“通过在现有的Scala集合(Seq对象)上调用SparkContext的parallelize方法来创建并行化集合.”

这似乎不适用于RDD?可以在RDD上进行并行处理吗?我是否需要将RDD转换为Seq对象?

解决方法

弹性分布式数据集(RDD)RDD顾名思义是分布式,容错和并行的.

“RDD是容错的并行数据结构,允许用户明确地将中间结果保存在内存中,控制它们的分区以优化数据放置,并且
使用丰富的操作符来控制它们.“
请看这paper.

不,您不需要将RDD转换为Seq对象. RDD上的所有处理都是并行完成的(取决于Spark安装的并行程度).

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读