python – 具有非常大的numpy数组的效率
我正在使用一些非常大的数组.我正在处理的一个问题当然是RAM耗尽,但在此之前我的代码运行缓慢,所以即使我有无限的RAM,它仍然需要太长时间.我将给出一些代码来展示我正在尝试做的事情:
#samplez is a 3 million element 1-D array #zfit is a 10,000 x 500 2-D array b = np.arange((len(zfit)) for x in samplez: a = x-zfit mask = np.ma.masked_array(a) mask[a <= 0] = np.ma.masked index = mask.argmin(axis=1) # These past 4 lines give me an index array of the smallest positive number # in x - zift d = zfit[b,index] e = zfit[b,index+1] f = (x-d)/(e-d) # f is the calculation I am after if x == samplez[0]: g = f index_stack = index else: g = np.vstack((g,f)) index_stack = np.vstack((index_stack,index)) 我需要在进一步的计算中使用g和index_stack,每个都是3百万x 10,000个2-D阵列.这个循环的每次迭代花费将近1秒,总共300万秒,这太长了. 我有什么办法可以让这个计算运行得更快吗?我试着想想如果没有这个for循环我怎么做,但我能想象的唯一方法是制作300万份zfit,这是不可行的. 有没有我可以通过不将所有内容保存在RAM中来处理这些数组?我是初学者,我搜索过的所有内容都是无关紧要的,或者是我无法理解的.提前致谢. 解决方法
很高兴知道最小的正数永远不会出现在行的末尾.
在samplez中有100万个唯一值,但在zfit中,每行最多只能有500个唯一值.整个zfit可以拥有多达5000万个唯一值.如果’找到最小的正数>的数量,则可以大大加快算法的速度. each_element_in_samplez’的计算可以大大减少.进行所有5e13比较可能是一种过度杀伤,小心翼翼的计划将能够摆脱它的大部分.这很大程度上取决于你的实际基础数学. 在不知情的情况下,仍然可以做一些小事.在图1中,没有那么多可能的(e-d)因此可以从循环中取出. 2,循环可以通过map消除.在我的机器上,这两个小修复导致大约22%的加速. def function_map(samplez,zfit): diff=zfit[:,:-1]-zfit[:,1:] def _fuc1(x): a = x-zfit mask = np.ma.masked_array(a) mask[a <= 0] = np.ma.masked index = mask.argmin(axis=1) d = zfit[:,index] f = (x-d)/diff[:,index] #constrain: smallest value never at the very end. return (index,f) result=map(_fuc1,samplez) return (np.array([item[1] for item in result]),np.array([item[0] for item in result])) 下一步:完全可以避免使用masked_array(这应该会带来显着的改进). samplez也需要进行排序. >>> x1=arange(50) >>> x2=random.random(size=(20,10))*120 >>> x2=sort(x2,axis=1) #just to make sure the last elements of each col > largest val in x1 >>> x3=x2*1 >>> f1=lambda: function_map2(x1,x3) >>> f0=lambda: function_map(x1,x2) >>> def function_map2(samplez,zfit): _diff=diff(zfit,axis=1) _zfit=zfit*1 def _fuc1(x): _zfit[_zfit<x]=(+inf) index = nanargmin(zfit,axis=1) d = zfit[:,index] f = (x-d)/_diff[:,np.array([item[0] for item in result])) >>> import timeit >>> t1=timeit.Timer('f1()','from __main__ import f1') >>> t0=timeit.Timer('f0()','from __main__ import f0') >>> t0.timeit(5) 0.09083795547485352 >>> t1.timeit(5) 0.05301499366760254 >>> t0.timeit(50) 0.8838210105895996 >>> t1.timeit(50) 0.5063929557800293 >>> t0.timeit(500) 8.900799036026001 >>> t1.timeit(500) 4.614129018783569 所以,这是另一个50%的加速. 避免使用masked_array并节省一些RAM.想不出别的什么可以减少RAM的使用.可能需要部分处理samplez.而且,如果你可以使用float16或float32而不是默认的float64来节省大量的RAM,那么,依赖于数据和所需的精度. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |