加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – Spark Kafka集成 – 将Kafka分区映射到RDD分区

发布时间:2020-12-16 09:55:24 所属栏目:安全 来源:网络整理
导读:我有几个与Spark Streaming相关的基本问题 [如果这些问题已在其他帖子中得到解答,请告诉我 – 我找不到任何问题]: (i)在Spark Streaming中,默认情况下RDD中的分区数是否等于工作者数? (ii)在Direct Approach for Spark-Kafka集成中,创建的RDD分区数等于Kaf
我有几个与Spark Streaming相关的基本问题

[如果这些问题已在其他帖子中得到解答,请告诉我 – 我找不到任何问题]:

(i)在Spark Streaming中,默认情况下RDD中的分区数是否等于工作者数?

(ii)在Direct Approach for Spark-Kafka集成中,创建的RDD分区数等于Kafka分区的数量.
假设每个RDD分区在每批DStream中映射到同一个工作节点j是正确的吗?即,是否仅基于分区的索引将分区映射到工作节点?例如,可以将分区2分配给一个批次中的worker 1,将另一个分区分配给worker 3吗?

提前致谢

解决方法

i)默认并行性是核心数(或8为mesos),但分区数量取决于输入流实现

ii)否,分区索引到工作节点的映射不是确定性的.如果您在与spark执行程序相同的节点上运行kafka,则运行任务的首选位置将位于该分区的kafka leader的节点上.但即使这样,也可以在另一个节点上安排任务.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读