加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 熊猫:按索引值分组,然后计算分位数?

发布时间:2020-12-16 23:40:00 所属栏目:Python 来源:网络整理
导读:我有一个在月份列上编入索引的DataFrame(使用df = df.set_index(‘month’)设置,如果相关的话): org_code ratio_cost month2010-08-01 1847 8.685939 2010-08-01 1848 7.883951 2010-08-01 1849 6.798465 2010-08-01 1850 7.352603 2010-09-01 1847 8.77850
我有一个在月份列上编入索引的DataFrame(使用df = df.set_index(‘month’)设置,如果相关的话):
org_code  ratio_cost   
month
2010-08-01   1847      8.685939     
2010-08-01   1848      7.883951     
2010-08-01   1849      6.798465     
2010-08-01   1850      7.352603     
2010-09-01   1847      8.778501

我想添加一个名为“分位数”的新列,它将根据该月份的ratio_cost值为每行分配一个分位数值.

所以上面的例子可能如下所示:

org_code  ratio_cost   quantile
month
2010-08-01   1847      8.685939     100 
2010-08-01   1848      7.883951     66.6 
2010-08-01   1849      6.798465     0  
2010-08-01   1850      7.352603     33.3
2010-09-01   1847      8.778501     100

我怎样才能做到这一点?我试过这个:

df['quantile'] = df.groupby('month')['ratio_cost'].rank(pct=True)

但我得到KeyError:’月’.

更新:我可以重现这个bug.

这是我的CSV文件:http://pastebin.com/raw/6xbjvEL0

这是重现错误的代码:

df = pd.read_csv('temp.csv')
df.month = pd.to_datetime(df.month,unit='s')
df = df.set_index('month')
df['percentile'] = df.groupby(df.index)['ratio_cost'].rank(pct=True)
print df['percentile']

我在OSX上使用Pandas 0.17.1.

解决方法

你必须在 rank之前 sort_index
import pandas as pd

df = pd.read_csv('http://pastebin.com/raw/6xbjvEL0')

df.month = pd.to_datetime(df.month,unit='s')
df = df.set_index('month')

df = df.sort_index()

df['percentile'] = df.groupby(df.index)['ratio_cost'].rank(pct=True)
print df['percentile'].head()

month
2010-08-01    0.2500
2010-08-01    0.6875
2010-08-01    0.6250
2010-08-01    0.9375
2010-08-01    0.7500
Name: percentile,dtype: float64

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读