1. 记住阿姆达尔定律:

funccost是函数func运行时间百分比,funcspeedup是你优化函数的运行的系数。 所以,如果你优化了函数TriangleIntersect执行40%的运行时间,使它运行快了近两倍,而你的程序会运行快25%。 这意味着不经常使用的代码不需要做较多优化考虑(或者完全不优化)。 这里有句俗语:让经常执行的路径运行更加高效,而运行稀少的路径正确运行。
2. 代码先保证正确,然后再考虑优化这并不意味着用8周时间写一个全功能的射线追踪算法,然后用8周时间去优化它。 分多步来做性能优化。 先写正确的代码,当你意识到这个函数可能会被经常调用,进行明显的优化。 然后再寻找算法的瓶颈,并解决(通过优化或者改进算法)。通常,改进算法能显著地改进瓶颈——也许是采用一个你还没有预想到的方法。所有频繁调用的函数,都需要优化。
3. 我所了解的那些写出非常高效代码的人说,他们优化代码的时间,是写代码时间的两倍。4.跳转和分支执行代价高,如果可能,尽量少用。函数调用需要两次跳转,外加栈内存操作。 优先使用迭代而不是递归。 使用内联函数处理短小的函数来消除函数调用开销。 将循环内的函数调用移动到循环外(例如,将for(i=0;i<100;i++) DoSomething();改为DoSomething() { for(i=0;i<100;i++) { … }})。 if…else if…else if…else if…很长的分支链执行到最后的分支需要很多的跳转。如果可能,将其转换为一个switch声明语句,编译器有时候会将其转换为一个表查询单次跳转。如果switch声明不可行,将最常见的场景放在if分支链的最前面。
5. 仔细思考函数下标的顺序。两阶或更高阶的数组在内存中还是以一维的方式在存储在内存中,这意味着(对于C/C++数组)array[i][j] 和 array[i][j+1]是相邻的,但是array[i][j] 和array[i+1][j]可能相距很远。 以适当的方式访问存储实际内存中的数据,可以显著地提升你代码的执行效率(有时候可以提升一个数量级甚至更多)。 现代处理器从主内存中加载数据到处理器cache,会加载比单个值更多的数据。该操作会获取请求数据和相邻数据(一个cache行大小)的整块数据。这意味着,一旦array[i][j]已经在处理器cache中,array[i][j+1]很大可能也已经在cache中了,而array[i+1][j]可能还在内存中。
6. 使用指令层的并行机制7. 避免或减少使用本地变量。8. 减少函数参数的个数。9. 通过引用传递结构体而不是传值10. 如果你的函数不需要返回值,不要定义一个。11. 尽量避免数据转换。12. 定义C++对象时需要注意。13. 使类构造函数尽可能轻量。尤其是常用的简单类型(比如,color,vector,point等等),这些类经常被复制。 这些默认构造函数通常都是在隐式执行的,这或许不是你所期望的。 使用类初始化列表(Use Color::Color() : r(0),g(0),b(0) {},而不是初始化函数Color::Color() { r= g = b = 0; } .)
14. 如果可以的话,使用位移操作>>和<<来代替整数乘除法15. 小心使用表查找函数16. 对大多数类,优先使用+= 、 -= 、 *= 和 /=,而不是使用+ 、 -、 * 、 和?/这些简单操作需要创建一个匿名临时中间变量。 例如:Vector v = Vector(1,0) + Vector(0,1,1);?创建了五个匿名临时Vector: Vector(1,0),Vector(0,1),Vector(1,和 Vector(1,1). 对上述代码进行简单转换:Vector v(1,0); v+= Vector(0,1);仅仅创建了两个临时Vector: Vector(0,0) 和 Vector(0,1)。这节约了6次函数调用(3次构造函数和3次析构函数)。
17. 对于基本数据类型,优先使用+?、?-?、?*?、?和?/,而不是+=?、?-=?、?*= 和 /=18. 推迟定义本地变量19. 对于对象,使用前缀操作符(++obj),而不是后缀操作符(obj++)20. 小心使用模板对不同的是实例实现进行不同的优化。 标准模板库已经经过良好的优化,不过我建议你在实现一个交互式射线追踪算法时避免使用它。 使用自己的实现,你知道它如何使用算法,所以你知道如何最有效的实现它。 最重要的是,我的经历告诉我:调试STL库非常低效。通常这也不是一个问题,除非你使用debug版本做性能分析。你会发现STL的构造函数,迭代器和其他一些操作,占用了你15%的运行时间,这会导致你分析性能输出更加费劲。
21. 避免在计算时进行动态内存分配22. 找到你系统内存cache的信息并利用它们23. 避免不需要的数据初始化24. 尽早结束循环和尽早返回函数调用考虑一个射线和三角形交叉,通常的情况是射线会越过三角,所以这里可以优化。 如果你决定将射线和三角面板交叉。如果射线和面板交叉t值是负数,你可以立即返回。这允许你跳过射线三角交叉一大半的质心坐标计算。这是一个大的节约,一旦你知道这个交叉不存在,你就应该立即返回交叉计算函数。 同样的,一些循环也应该尽早结束。例如,当设置阴影射线,对于近处的交叉通常都是不必须的,一旦有类似的的交叉,交叉计算就应该尽早返回。(这里的交叉含义不太明白,可能是专业词汇,译者注)
25. 在稿纸上简化你的方程式26. 整数、定点数、32位浮点数和64位双精度数字的数学运算差异,没有你想象的那么大在现代CPU,浮点数运算和整数运算差不多拥有同样的效率。在计算密集型应用(比如射线追踪),这意味这可以忽略整数和浮点数计算的开销差异。这也就是说,你不必要对算数进行整数处理优化。 双精度浮点数运算也不比单精度浮点数运算更慢,尤其是在64位机器上。我在同一台机器测试射线追踪算法全部使用double比全部使用floats运行有时候更快,反过来测试也看到了一样的现象(这里的原文是:I have seen ray tracers run faster using all doubles than all floats on the same machine. I have also seen the reverse)。
27. 不断改进你的数学计算,以消除昂贵的操作sqrt()经常可以被优化掉,尤其是在比较两个值的平方根是否一致时。 如果你重复地需要处理 除x 操作,考虑计算1/x的值,乘以它。这在向量规范化(3次除法)运算中赢得了大的改进,不过我最近发现也有点难以确定的。不过,这仍然有所改进,如果你要进行三次或更多除法运算。 如果你在执行一个循环,那些在循环中执行不发生变化的部分,确保提取到循环外部。 考虑看看你的计算值是否可以在循环中修改得到(而不每次都重新开始循环计算)。
本文由 伯乐在线 - 周昌鸿 翻译自 cs.clemson.edu。 (编辑:李大同)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|