颠覆大数据分析之Spark VS分布式共享内存系统
发布时间:2020-12-14 02:38:25 所属栏目:大数据 来源:网络整理
导读:颠覆大数据分析之Spark VS分布式共享内存系统 译者:黄经业 ? ?购书 Spark可以看作是一个分布式共享集合系统,和Stumm和Zhou (1990)以及Nitzber和Lo (1991)所提到的传统的分布式共享内存(DSM)系统则略有不 同。DSM系统允许单独读写内存,而Spark只允许进行
颠覆大数据分析之Spark VS分布式共享内存系统 译者:黄经业 ? ?购书 Spark可以看作是一个分布式共享集合系统,和Stumm和Zhou (1990)以及Nitzber和Lo (1991)所提到的传统的分布式共享内存(DSM)系统则略有不
在Spark中,开发人员调用map,filter或reduce操作时可以传入函数或者闭包。一般来说,当Spark在工作节点上运行这些函数的时候,函数使用域内的本地变量会被拷贝出来。Spark有一个共享变量的概念,它使用广播变量和累加器来模拟“全局”变量。开发人员使用广播变量一次性地将只读数据拷贝给所有的工作者。(类共轭梯度下降的算法中的静态矩阵可以使用广播变量来表示)累加器是只能由工作者来增加并由驱动程序去读取的变量——这样并行聚合可以实现成支持容错的。值得注意的是全局变量是在Spark中模仿DSM功能的一种特殊方式。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |