python – 熊猫:按索引值分组,然后计算分位数?
发布时间:2020-12-16 23:40:00 所属栏目:Python 来源:网络整理
导读:我有一个在月份列上编入索引的DataFrame(使用df = df.set_index(‘month’)设置,如果相关的话): org_code ratio_cost month2010-08-01 1847 8.685939 2010-08-01 1848 7.883951 2010-08-01 1849 6.798465 2010-08-01 1850 7.352603 2010-09-01 1847 8.77850
我有一个在月份列上编入索引的DataFrame(使用df = df.set_index(‘month’)设置,如果相关的话):
org_code ratio_cost month 2010-08-01 1847 8.685939 2010-08-01 1848 7.883951 2010-08-01 1849 6.798465 2010-08-01 1850 7.352603 2010-09-01 1847 8.778501 我想添加一个名为“分位数”的新列,它将根据该月份的ratio_cost值为每行分配一个分位数值. 所以上面的例子可能如下所示: org_code ratio_cost quantile month 2010-08-01 1847 8.685939 100 2010-08-01 1848 7.883951 66.6 2010-08-01 1849 6.798465 0 2010-08-01 1850 7.352603 33.3 2010-09-01 1847 8.778501 100 我怎样才能做到这一点?我试过这个: df['quantile'] = df.groupby('month')['ratio_cost'].rank(pct=True) 但我得到KeyError:’月’. 更新:我可以重现这个bug. 这是我的CSV文件:http://pastebin.com/raw/6xbjvEL0 这是重现错误的代码: df = pd.read_csv('temp.csv') df.month = pd.to_datetime(df.month,unit='s') df = df.set_index('month') df['percentile'] = df.groupby(df.index)['ratio_cost'].rank(pct=True) print df['percentile'] 我在OSX上使用Pandas 0.17.1. 解决方法
你必须在
rank 之前
sort_index :
import pandas as pd df = pd.read_csv('http://pastebin.com/raw/6xbjvEL0') df.month = pd.to_datetime(df.month,unit='s') df = df.set_index('month') df = df.sort_index() df['percentile'] = df.groupby(df.index)['ratio_cost'].rank(pct=True) print df['percentile'].head() month 2010-08-01 0.2500 2010-08-01 0.6875 2010-08-01 0.6250 2010-08-01 0.9375 2010-08-01 0.7500 Name: percentile,dtype: float64 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |