加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – Spark:Executor Lost Failure(添加groupBy作业后)

发布时间:2020-12-16 08:44:47 所属栏目:安全 来源:网络整理
导读:我正在尝试在Yarn客户端上运行Spark工作.我有两个节点,每个节点都有以下配置. 我得到“ExecutorLostFailure(遗失执行人1)”. 我已经尝试了大部分Spark调优配置.我已经减少了一个执行者丢失,因为最初我有6个执行器失败. 这些是我的配置(我的spark-submit): H
我正在尝试在Yarn客户端上运行Spark工作.我有两个节点,每个节点都有以下配置.

enter image description here

我得到“ExecutorLostFailure(遗失执行人1)”.

我已经尝试了大部分Spark调优配置.我已经减少了一个执行者丢失,因为最初我有6个执行器失败.

这些是我的配置(我的spark-submit):

HADOOP_USER_NAME=hdfs spark-submit –class genkvs.CreateFieldMappings
–master yarn-client –driver-memory 11g –executor-memory 11G –total-executor-cores 16 –num-executors 15 –conf “spark.executor.extraJavaOptions=-XX:+UseCompressedOops
-XX:+PrintGCDetails -XX:+PrintGCTimeStamps” –conf spark.akka.frameSize=1000 –conf spark.shuffle.memoryFraction=1 –conf
spark.rdd.compress=true –conf
spark.core.connection.ack.wait.timeout=800
my-data/lookup_cache_spark-assembly-1.0-SNAPSHOT.jar -h
hdfs://hdp-node-1.zone24x7.lk:8020 -p 800

我的数据大小为6GB,我在工作中正在做一个小组.

def process(in: RDD[(String,String,Int,String)]) = {
    in.groupBy(_._4)
}

我是Spark的新手,请帮我找出错误.我现在至少要挣扎一周了.

非常感谢你提前.

解决方法

弹出两个问题:

> spark.shuffle.memoryFraction设置为1.为什么选择它而不是保留0.2?这可能会使其他非洗牌行动挨饿>您只有11G可用于16个核心.只有11G我会将你工作中的工人数量设置为不超过3 – 并且最初(为了超越遗嘱执行人丢失的问题)只需尝试1.有16个执行者,每个人得到700mb – 这就不足为奇了OOME /执行者丢失了.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读