python – 用groupby滚动max的pandas
发布时间:2020-12-20 12:00:04 所属栏目:Python 来源:网络整理
导读:我有一个问题,让Pandas的滚动功能做我想做的事.我希望每个人都能计算到目前为止的最大值.这是一个例子: df = pd.DataFrame([[1,3],[1,6],[2,2],1]],columns=['id','value']) 好像 id value0 1 31 1 62 1 33 2 24 2 1 现在我希望获得以下DataFrame: id valu
我有一个问题,让Pandas的滚动功能做我想做的事.我希望每个人都能计算到目前为止的最大值.这是一个例子:
df = pd.DataFrame([[1,3],[1,6],[2,2],1]],columns=['id','value']) 好像 id value 0 1 3 1 1 6 2 1 3 3 2 2 4 2 1 现在我希望获得以下DataFrame: id value 0 1 3 1 1 6 2 1 6 3 2 2 4 2 2 问题是,当我这样做 df.groupby('id')['value'].rolling(1).max() 我得到了相同的DataFrame.而当我这样做 df.groupby('id')['value'].rolling(3).max() 我得到了一个N??ans的DataFrame.有人可以解释如何正确使用滚动或其他一些Pandas函数来获取我想要的DataFrame吗? 解决方法
看起来你需要cummax()而不是.rolling(N).max()
In [29]: df['new'] = df.groupby('id').value.cummax() In [30]: df Out[30]: id value new 0 1 3 3 1 1 6 6 2 1 3 6 3 2 2 2 4 2 1 2 时间(使用全新的Pandas版本0.20.1): In [3]: df = pd.concat([df] * 10**4,ignore_index=True) In [4]: df.shape Out[4]: (50000,2) In [5]: %timeit df.groupby('id').value.apply(lambda x: x.cummax()) 100 loops,best of 3: 15.8 ms per loop In [6]: %timeit df.groupby('id').value.cummax() 100 loops,best of 3: 4.09 ms per loop 注意:from Pandas 0.20.0 what’s new >改进了groupby().cummin()和groupby()的性能.cummax()(GH15048,GH15109,GH15561,GH15635) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |