颠覆大数据分析之RDD的表达性

发布时间：2020-12-14 02:38:17 所属栏目：大数据来源：网络整理

导读：颠覆大数据分析之 RDD 的表达性译者：黄经业 ? ?购书正如前面在比较Spark及DSM系统时所提到的，由于RDD只支持粗粒度的操作，因此它有一定的局限性。但是RDD的表达性对于大多数程序而言其实已经足够好了。AMPLabs团队他们仅花了数百行代码就开发出了整个Pr

颠覆大数据分析之RDD的表达性

译者：黄经业 ? ?购书

正如前面在比较Spark及DSM系统时所提到的，由于RDD只支持粗粒度的操作，因此它有一定的局限性。但是RDD的表达性对于大多数程序而言其实

已经足够好了。AMPLabs团队他们仅花了数百行代码就开发出了整个Pregel，这是Spark上的一个小的库。可以通过RDD及相关的操作来表示的集群计算模型列举如下：

Map-Reduce：如果存在混合器的话，这个可以使用RDD上的flatMap和reduceByKey操作来表示。简单点的话可以表示成flatMap和groupByKey操作。运算符则对应于Spark中的转换操作。
DryadLINQ:DryadLINQ(Yu等2008)通过结合了声明性及命令式编程提供了MR所没有的操作。大多数操作符都能对应上Spark中的转换操作。Dryad中的apply结构就类似于RDD的map转换，而Fork结构则类似于flatMap转换。
整体同步并行（BSP）：Pregel (Malewicz等 2010)中的计算由一系列称为超步骤的迭代所组成。图中的每个顶点都关联上一个用户定义的计算函数;Pregel会确保在每一个超步骤中，用户定义的函数都会并行地在每一条边上执行。顶点可以通过边来发送消息并与其它的顶点交互数据。同样的，还会有一个全局的栅栏——当所有的计算函数都终止的时候它就会向前移动。熟悉BSP的读者可能会知道，Pregel是一个完美的BSP的典范——一组实体在并行地计算用户定义的函数，它们有全局的同步器并可以交换消息。由于同一个用户函数会作用于所有的顶点，这种情况可以这样实现，将所有顶点存储在一个RDD中并在上面运行flatMap操作来生成一个新的RDD。把它和跟顶点的RDD连接到一块，这样就可以实现消息传递了。
迭代式Map-Reduce：HaLoop项目也同样扩展了Hadoop来支持迭代式机器学习算法。HaLoop不仅为迭代式应用提供了编程抽象，同时它还用到了缓存的概念来在迭代间进行数据共享和固定点校验（迭代的终止）以便提升效率。Twister (Ekanayake等2010)是另一个类似HaLoop的尝试。这些在Spark中都可以很容易实现，因为它本身非常容易进行迭代式计算。AMPLabs团队实现HaLoop仅花了200行代码。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!