加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

多线程 – Apache Spark独立模式:核心数

发布时间:2020-12-15 04:25:01 所属栏目:Java 来源:网络整理
导读:我正在尝试理解Spark内部的基础知识和用于在本地模式下提交应用程序的Spark文档,请参阅spark-submit –master设置: local[K] Run Spark locally with K worker threads (ideally,set this to the number of cores on your machine). local[*] Run Spark loc
我正在尝试理解Spark内部的基础知识和用于在本地模式下提交应用程序的Spark文档,请参阅spark-submit –master设置:

local[K] Run Spark locally with K worker threads (ideally,set this to
the number of cores on your machine).

local[*] Run Spark locally with
as many worker threads as logical cores on your machine.

由于所有数据都存储在单个本地计算机上,因此它不会受益于RDD上的分布式操作.

当Spark使用多个逻辑核心时,它如何受益以及内部正在发生什么?

解决方法

系统将分配额外的线程来处理数据.尽管仅限于一台机器,它仍然可以利用现代服务器中可用的高度并行性.

如果你有一个合理大小的数据集,比如说有十几个分区,可以测量使用local [1] vs local [n]所需的时间(其中n是你机器中的核心数).您还可以看到机器利用率的差异.如果您只有一个核心指定使用,它将只使用100%的一个核心(加上一些额外的垃圾收集).如果你有4个核心,并指定local [4],它将使用400%的核心(4个核心).并且可以显着缩短执行时间(尽管通常不会缩短4倍).

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读