python – Pandas:如何从DataFrame中删除重复的行并计算它们的
发布时间:2020-12-16 21:30:51 所属栏目:Python 来源:网络整理
导读:我有一个创建的数据帧: df1 = pd.DataFrame({'key': ['b','b','a','c','b'],'year':[2000,2001,1998,1999,2000]}) 具体如下: key year0 b 2000 1 b 2001 2 a 1998 3 c 1999 4 a 1998 5 a 1998 6 b 2000 我想以最快的方式获取每行的出现次数: key year fre
我有一个创建的数据帧:
df1 = pd.DataFrame({'key': ['b','b','a','c','b'],'year':[2000,2001,1998,1999,2000]}) 具体如下: key year 0 b 2000 1 b 2001 2 a 1998 3 c 1999 4 a 1998 5 a 1998 6 b 2000 我想以最快的方式获取每行的出现次数: key year frequency b 2000 2 b 2001 1 a 1998 3 c 1999 1 解决方法
通过做
df1.groupby(['key','year']).size().reset_index() 你得到… key year 0 0 a 1998 3 1 b 2000 2 2 b 2001 1 3 c 1999 1 如您所见,该列尚未命名,因此您可以执行类似的操作 mydf = df1.groupby(['key','year']).size().reset_index() mydf.rename(columns = {0: 'frequency'},inplace = True) mydf key year frequency 0 a 1998 3 1 b 2000 2 2 b 2001 1 3 c 1999 1 (如果需要,可以省略.reset_index(),但在这种情况下,您需要将mydf转换为数据帧,如下所示:mydf = pd.DataFrame(mydf),然后才重命名列) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |