加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – 当存储级别设置为磁盘时,Spark存储数据在哪里?

发布时间:2020-12-16 18:36:34 所属栏目:安全 来源:网络整理
导读:我想知道当存储级别设置为DISK_ONLY或MEMORY_AND_DISK时,Spark存储数据的目录(在这种情况下,数据不适合内存).因为我看到我设置的级别没有区别.如果程序崩溃MEMORY_ONLY级别,它也会崩溃所有其他级别. 在我正在使用的集群中,/ tmp目录是一个RAM磁盘,因此大小有
我想知道当存储级别设置为DISK_ONLY或MEMORY_AND_DISK时,Spark存储数据的目录(在这种情况下,数据不适合内存).因为我看到我设置的级别没有区别.如果程序崩溃MEMORY_ONLY级别,它也会崩溃所有其他级别.

在我正在使用的集群中,/ tmp目录是一个RAM磁盘,因此大小有限. Spark是否试图将磁盘级数据存储到该驱动器?也许,这就是为什么我没有看到差异.如果确实如此,我该如何更改此默认行为?如果我正在使用Hadoop附带的纱线群集,我是否需要更改hadoop配置文件中的/ tmp文件夹,或者仅使用Spark更改spark.local.dir?

解决方法

是的,Spark正在将磁盘级数据存储到该驱动器.

在yarn-cluster模式下,Spark执行程序和Spark驱动程序使用的本地目录将是为YARN配置的本地目录(Hadoop YARN config yarn.nodemanager.local-dirs).如果用户指定spark.local.dir,它将被忽略.

参考:https://spark.apache.org/docs/latest/running-on-yarn.html#important-notes

因此,您可以在yarn配置中更改spark本地目录更改yarn.nodemanager.local-dirs

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读