c – vector :: operator []开销
显然,在剖析我的(科学计算)C代码之后,25%(!)的时间花在与vector :: operator []的调用上.诚然,我的代码花费了所有的时间读取和写入矢量< float> s(和一些向量< int> s),但是我仍然想知道是否应该有一些显着的操作开销[ ]与C风格的阵列相比?
(我已经看到关于SO的另一个相关问题,但是关于[] vs at() – 但显然甚至[]对我来说太慢了! 谢谢, (编辑:只是为了信息:在Ubuntu上使用g -O3版本4.5.2) 解决方法
std :: vector :: operator []应该是相当有效的,但是编译器必须是偏执的,对于对函数的每个调用,它必须假定向量可能已经被移动到内存中的其他位置.
例如在这段代码中 for (int i=0,n=v.size(); i<n; i++) { total += v[i] + foo(); } 如果foo的代码不是预先知道的,那么编译器每次都被迫重新加载向量开始的地址,因为向量可能是由于foo()中的代码而被重新分配的. 如果您确定该矢量不会被内存移动或重新分配,那么您可以使用类似于 double *vptr = &v[0]; // Address of first element for (int i=0,n=v.size(); i<n; i++) { total += vptr[i] + foo(); } 使用这种方法,可以保存一个存储器查找操作(vptr可能最终在整个循环的寄存器中). 低效率的另一个原因可能是缓存垃圾.为了看看这是否是一个问题,一个简单的伎俩是通过一些不均匀的元素来过度分配你的矢量. 原因是因为缓存如何工作,如果你有很多向量,例如4096个元素都将在地址中具有相同的低阶位,并且由于缓存行无效,您可能会最终失去很多速度. std::vector<double> v1(n),v2(n),v3(n),v4(n),v5(n); for (int i=0; i<1000000; i++) for (int j=0; j<1000; j++) { v1[j] = v2[j] + v3[j]; v2[j] = v3[j] + v4[j]; v3[j] = v4[j] + v5[j]; v4[j] = v5[j] + v1[j]; v5[j] = v1[j] + v2[j]; } 如果n == 8191执行约8.1秒,如果n == 10000则在3.2秒内执行.注意,内循环始终为0到999,与n的值无关;只是内存地址有什么不同? 根据处理器/架构的不同,由于缓存丢失,我甚至观察到10倍的速度下降. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |