scala – .parallelize(…)在Apache Spark中是一个懒惰的操作吗
发布时间:2020-12-16 18:06:01 所属栏目:安全 来源:网络整理
导读:并行化(和其他加载操作)是仅在执行Spark操作时执行还是在遇到它时立即执行? 请参见spark code中的def parallelize 请注意.textFile(…)的不同后果:延迟评估意味着虽然最初可能会保存一些内存,但每次执行操作时都必须读取文本文件,并且文本文件中的更改会影
并行化(和其他加载操作)是仅在执行Spark操作时执行还是在遇到它时立即执行?
请参见spark code中的def parallelize 请注意.textFile(…)的不同后果:延迟评估意味着虽然最初可能会保存一些内存,但每次执行操作时都必须读取文本文件,并且文本文件中的更改会影响改变后的所有行动. 解决方法
并行执行是懒惰的:请参阅引用代码的L726,说明“@note Parallelize懒惰地行动”.
只有在您调用操作时才会触发Spark中的执行,例如收集或计数. 因此与Spark一起: >转换链由用户API(您)设置,例如并行化,映射,减少,……>一旦调用了一个动作,转换链就会“放入”Catalyst优化器中,进行优化然后执行. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- WebService基于SoapHeader实现安全认证
- unix – grep -f最大模式数量?
- 使用observables订阅的Angular2 HTTP显示数据未定义
- bash – 如何通过命令管理一个文档,并将结果捕获到变量中?
- Bootstrap—后台框架Ace
- “与”相当于Scala的声明?
- twitter-bootstrap – Bootstrap Carousel Multi Items一次
- angularjs – Angular JS Material mdMedia似乎无法正常工作
- 在VIM中为PHP自动格式化
- angularjs – 当typeahead-editable为false时,设置输入无效