R中存在哪些并行算法,处理大数据

发布时间：2020-12-14 04:42:12 所属栏目：大数据来源：网络整理

导读：我试图找出CRAN / github / R-Forge中R或R包中的哪些统计/数据挖掘算法可以在1台服务器上并行处理大型数据集,而不会遇到内存不足问题或它可以同时在多台机器上运行. 这是为了评估我是否可以轻松地将它们移植到ff / ffbase,如ffbase :: bigglm.ffdf. 我想将这

我试图找出CRAN / github / R-Forge中R或R包中的哪些统计/数据挖掘算法可以在1台服务器上并行处理大型数据集,而不会遇到内存不足问题或它可以同时在多台机器上运行.
这是为了评估我是否可以轻松地将它们移植到ff / ffbase,如ffbase :: bigglm.ffdf.

我想将这些分为三部分：

>并行更新或处理参数估计的算法

> Buckshot(https://github.com/lianos/buckshot)
> lm.fit @大数据编程(https://github.com/RBigData)

>顺序工作的算法(在R中获取数据,但只使用1个进程,只有1个进程更新参数)

> bigglm(http://cran.r-project.org/web/packages/biglm/index.html)
>复合泊松线性模型(http://cran.r-project.org/web/packages/cplm/index.html)
> Kmeans @ biganalytics(http://cran.r-project.org/web/packages/biganalytics/index.html)

>处理部分数据

>分布式文本处理(http://www.jstatsoft.org/v51/i05/paper)

并且我想排除简单的并行化,例如通过例如超参数优化. crossvalidating.
这些模型/优化器或算法的其他指针是什么？也许是贝叶斯？也许是一个名为RGraphlab的包(http://graphlab.org/)？

解决方法

随机森林平行运行是微不足道的.这是 foreach vignette中的一个例子：

x <- matrix(runif(500),100)
y <- gl(2,50)
library(randomForest); library(foreach)
rf <- foreach(ntree=rep(250,4),.combine=combine,.packages='randomForest') %dopar% randomForest(x,y,ntree=ntree)

您可以使用此构造将林分布在群集中的每个核心上.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!