加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

R中存在哪些并行算法,处理大数据

发布时间:2020-12-14 04:42:12 所属栏目:大数据 来源:网络整理
导读:我试图找出CRAN / github / R-Forge中R或R包中的哪些统计/数据挖掘算法可以在1台服务器上并行处理大型数据集,而不会遇到内存不足问题或它可以同时在多台机器上运行. 这是为了评估我是否可以轻松地将它们移植到ff / ffbase,如ffbase :: bigglm.ffdf. 我想将这
我试图找出CRAN / github / R-Forge中R或R包中的哪些统计/数据挖掘算法可以在1台服务器上并行处理大型数据集,而不会遇到内存不足问题或它可以同时在多台机器上运行.
这是为了评估我是否可以轻松地将它们移植到ff / ffbase,如ffbase :: bigglm.ffdf.

我想将这些分为三部分:

>并行更新或处理参数估计的算法

> Buckshot(https://github.com/lianos/buckshot)
> lm.fit @大数据编程(https://github.com/RBigData)

>顺序工作的算法(在R中获取数据,但只使用1个进程,只有1个进程更新参数)

> bigglm(http://cran.r-project.org/web/packages/biglm/index.html)
>复合泊松线性模型(http://cran.r-project.org/web/packages/cplm/index.html)
> Kmeans @ biganalytics(http://cran.r-project.org/web/packages/biganalytics/index.html)

>处理部分数据

>分布式文本处理(http://www.jstatsoft.org/v51/i05/paper)

并且我想排除简单的并行化,例如通过例如超参数优化. crossvalidating.
这些模型/优化器或算法的其他指针是什么?也许是贝叶斯?也许是一个名为RGraphlab的包(http://graphlab.org/)?

解决方法

随机森林平行运行是微不足道的.这是 foreach vignette中的一个例子:

x <- matrix(runif(500),100)
y <- gl(2,50)
library(randomForest); library(foreach)
rf <- foreach(ntree=rep(250,4),.combine=combine,.packages='randomForest') %dopar% randomForest(x,y,ntree=ntree)

您可以使用此构造将林分布在群集中的每个核心上.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读