加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – 在Mappers之间共享信息的增强版MapReduce有什么好的应

发布时间:2020-12-16 18:37:49 所属栏目:安全 来源:网络整理
导读:我正在构建Spark框架的增强功能(http://www.spark-project.org/). Spark是加州大学伯克利分校的一个项目,可以在RAM中快速完成MapReduce. Spark是用 Scala构建的. 我正在构建的增强功能允许在映射器计算时共享一些数据.这可能很有用,例如,如果每个映射器都在
我正在构建Spark框架的增强功能(http://www.spark-project.org/). Spark是加州大学伯克利分校的一个项目,可以在RAM中快速完成MapReduce. Spark是用 Scala构建的.

我正在构建的增强功能允许在映射器计算时共享一些数据.这可能很有用,例如,如果每个映射器都在寻找最佳解决方案,并且他们都希望共享当前最佳解决方案(尽早删除不良解决方案).解决方案在传播时可能会略微过时,但这仍然可以加快解决方案的速度.通常,这称为分支定界方法.

我们可以分享单调增加的数字,但我们也可以共享数组和字典.

我们还在研究机器学习应用程序,其中映射器描述本地自然梯度信息,然后在所有节点之间共享新的最佳当前最优解决方案.

这种增强的其他一些好的实际应用是什么?只需在映射器之间进行一些信息共享,Map Reduce计算可以从中受益哪些真实有用的应用程序.什么应用程序现在使用MapReduce或Hadoop,但由于Map阶段的独立性限制,它们只是有点太慢了?

好处可以是加速地图阶段,或改进解决方案.

解决方法

The enhancement I’m building allows some data to be shared between the mappers while they are computing.

Apache Giraph基于Google Pregel,其基于BSP并用于图形处理.在BSP中,通信阶段的进程之间存在数据共享.

Giraph依靠Hadoop实现.通常,MapReduce中的映射器之间没有通信,但是在Giraph中,映射器在BSP的通信阶段期间彼此通信.

您可能也对Apache Hama感兴趣,它实现了BSP,可以用于图形处理以外的操作.

可能有一些原因可能是mappers不在MR中进行通信.您是否在增强功能中考虑了这些因素?

What are some other good real-world applications of this kind of enhancement?

图形处理是我能想到的一件事,类似于Giraph.查看BSP的不同用例,有些可能适用于此类增强.我也很感兴趣其他人对此有何看法.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读