scala – Spark Standalone Mode：更改HDFS输出的复制因子

发布时间：2020-12-16 09:06:09 所属栏目：安全来源：网络整理

导读：在我的hdfs-site.xml中,我配置了一个复制因子1. 但是,在将结果写入hdfs时： someMap.saveAsTextFile("hdfs://HOST:PORT/out") 结果会自动复制3倍,覆盖我自己的复制因子.为了节省一些空间,我希望我的输出也有一个复制因子1. 怎么能告诉HDFS使用复制因子1？解

在我的hdfs-site.xml中,我配置了一个复制因子1.

但是,在将结果写入hdfs时：

someMap.saveAsTextFile("hdfs://HOST:PORT/out")

结果会自动复制3倍,覆盖我自己的复制因子.为了节省一些空间,我希望我的输出也有一个复制因子1.

怎么能告诉HDFS使用复制因子1？

解决方法

我认为spark正在加载一个复制设置为3的 default hadoop config.要覆盖它,你需要设置一个类似于你能找到的其他火花配置的环境变量或系统属性 here.

你可能想要这样的东西：

System.setProperty("spark.hadoop.dfs.replication","1")

或者在你的jvm启动中：

-Dspark.hadoop.dfs.replication=1

希望这样的事情应该有效……

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!