加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – spark中的saveAsTextFile方法

发布时间:2020-12-16 18:48:52 所属栏目:安全 来源:网络整理
导读:在我的项目中,我有三个输入文件,并将文件名称为args(0)到args(2),我也有一个输出文件名为args(3),在源代码中,我使用 val sc = new SparkContext()var log = sc.textFile(args(0))for(i - 1 until args.size - 1) log = log.union(sc.textFile(args(i))) 我对
在我的项目中,我有三个输入文件,并将文件名称为args(0)到args(2),我也有一个输出文件名为args(3),在源代码中,我使用

val sc = new SparkContext()
var log = sc.textFile(args(0))
for(i <- 1 until args.size - 1) log = log.union(sc.textFile(args(i)))

我对日志没有任何作用,但是使用它将其保存为文本文件

log.coalesce(1,true).saveAsTextFile(args(args.size - 1))

但它仍然保存为3文件作为00000部分,部分00001,部分00002,那么有什么方法可以将三个输入文件保存到输出文件?

解决方法

拥有多个输出文件是Hadoop或Spark等多机群集的标准行为.输出文件的数量取决于reducer的数量.

如何在Hadoop中“解决”它:
merge output files after reduce phase

如何在Spark中“解决”:
how to make saveAsTextFile NOT split output into multiple file?

您也可以在这里获得一个很好的信息:
http://apache-spark-user-list.1001560.n3.nabble.com/How-to-make-Spark-merge-the-output-file-td322.html

所以,你是合适的合并(1,真实).但是,效率非常低.有趣的是(正如@climbage在他的评论中提到的),如果你在本地运行它,你的代码就可以了.

您可能尝试的是先读取文件然后保存输出.

...
val sc = new SparkContext()
var str = new String("")
for(i <- 0 until args.size - 1){
   val file = sc.textFile(args(i))       
   file.foreach(line => str+= line)
}
//and now you might save the content
str.coalesce(1,true).saveAsTextFile("out")

注意:此代码效率极低,仅适用于小文件!你需要提出一个更好的代码.我不会尝试减少文件数量,而是处理多个输出文件.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读