R中存在哪些并行算法,处理大数据
我试图找出CRAN /
github / R-Forge中R或R包中的哪些统计/数据挖掘算法可以在1台服务器上并行处理大型数据集,而不会遇到内存不足问题或它可以同时在多台机器上运行.
这是为了评估我是否可以轻松地将它们移植到ff / ffbase,如ffbase :: bigglm.ffdf. 我想将这些分为三部分: >并行更新或处理参数估计的算法 > Buckshot(https://github.com/lianos/buckshot) >顺序工作的算法(在R中获取数据,但只使用1个进程,只有1个进程更新参数) > bigglm(http://cran.r-project.org/web/packages/biglm/index.html) >处理部分数据 >分布式文本处理(http://www.jstatsoft.org/v51/i05/paper) 并且我想排除简单的并行化,例如通过例如超参数优化. crossvalidating. 解决方法
随机森林平行运行是微不足道的.这是
foreach vignette中的一个例子:
x <- matrix(runif(500),100) y <- gl(2,50) library(randomForest); library(foreach) rf <- foreach(ntree=rep(250,4),.combine=combine,.packages='randomForest') %dopar% randomForest(x,y,ntree=ntree) 您可以使用此构造将林分布在群集中的每个核心上. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |