加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

聚合效率低于循环?

发布时间:2020-12-14 04:54:30 所属栏目:百科 来源:网络整理
导读:我试图在一个大表上执行此操作,以计算data.table X中具有a和b的不同组合的行. Y - aggregate(c ~ a+b,X,length) 虽然RAM使用率仍然存在,但它仍然需要永远(我在30分钟后停止). 然后我尝试手动循环遍历b的值并仅在a上聚合(技术上仍然聚合在b上,但每次都使用单
我试图在一个大表上执行此操作,以计算data.table X中具有a和b的不同组合的行.

Y <- aggregate(c ~ a+b,X,length)

虽然RAM使用率仍然存在,但它仍然需要永远(我在30分钟后停止).

然后我尝试手动循环遍历b的值并仅在a上聚合(技术上仍然聚合在b上,但每次都使用单个值b):

sub_agg <- list()
unique_bs <- unique(X$b)
for (b_it in unique_bs){
sub_agg[[length(sub_agg)+1]] <- aggregate(c ~ a + b,subset(X,b == b_it),length)
}
Y <- do.call(rbind,sub_agg )

我在3分钟内完成了.

我可以更进一步完全摆脱聚合,只对子集进行操作.

聚合效率是否低于嵌套循环和子集上的操作,或者这是一个特例吗?

聚合通常是占用时间最多的代码部分,所以我现在想要总是尝试循环,我想更好地理解这里发生的事情.

附加信息:

X has 20 million rows

50 distinct values for b

15 000 distinct values for a

解决方法

是的,聚合效率低于您在那里使用的循环,因为:

>当数据点数量增加时,聚合变得不成比例地变慢.您的第二个解决方案在小子集上使用聚合.其中一个
原因是聚合取决于排序,并且排序不是在O(n)时间内完成的.
> aggregate还在内部使用expand.grid,它创建一个数据框,其中包含变量a和b中所有唯一值的所有可能组合.您可以在aggregate.data.frame的内部代码中看到这一点.随着观察数量的增加,这个功能也变得不成比例地变慢.
>编辑:我的最后一点并没有真正意义,因为你将数据框中的所有内容组合在一起.

也就是说,绝对没有理由在这里使用聚合.我只需使用表来到数据框Y:

thecounts <- with(X,table(a,b))
Y <- as.data.frame(thecounts)

此解决方案比使用聚合提供的解决方案快得多.在我的机器上68次准确…

基准测试:

test replications elapsed relative 
1  aggloop()            1   15.03   68.318 
2 tableway()            1    0.22    1.000

用于基准测试的代码(注意我将所有内容都设置得更小,以便不阻止我的R
时间过长):

nrows <- 20e5

X <- data.frame(
  a = factor(sample(seq_len(15e2),nrows,replace = TRUE)),b = factor(sample(seq_len(50),c = 1
)

aggloop <- function(){
sub_agg <- list()
unique_bs <- unique(X$b)
for (b_it in unique_bs){
  sub_agg[[length(sub_agg)+1]] <- aggregate(c ~ a + b,sub_agg )
}

tableway <- function(){
  thecounts <- with(X,b))
  Y <- as.data.frame(thecounts)
}

library(rbenchmark)

benchmark(aggloop(),tableway(),replications = 1
          )

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读