加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – Pandas:如何从DataFrame中删除重复的行并计算它们的

发布时间:2020-12-16 21:30:51 所属栏目:Python 来源:网络整理
导读:我有一个创建的数据帧: df1 = pd.DataFrame({'key': ['b','b','a','c','b'],'year':[2000,2001,1998,1999,2000]}) 具体如下: key year0 b 2000 1 b 2001 2 a 1998 3 c 1999 4 a 1998 5 a 1998 6 b 2000 我想以最快的方式获取每行的出现次数: key year fre
我有一个创建的数据帧:
df1 = pd.DataFrame({'key': ['b','b','a','c','b'],'year':[2000,2001,1998,1999,2000]})

具体如下:

key    year
0    b    2000  
1    b    2001  
2    a    1998  
3    c    1999  
4    a    1998  
5    a    1998  
6    b    2000

我想以最快的方式获取每行的出现次数:

key  year    frequency  
b    2000    2  
b    2001    1  
a    1998    3  
c    1999    1

解决方法

通过做
df1.groupby(['key','year']).size().reset_index()

你得到…

key  year  0
0   a  1998  3
1   b  2000  2
2   b  2001  1
3   c  1999  1

如您所见,该列尚未命名,因此您可以执行类似的操作

mydf = df1.groupby(['key','year']).size().reset_index()
mydf.rename(columns = {0: 'frequency'},inplace = True)

mydf

  key  year  frequency
0   a  1998          3
1   b  2000          2
2   b  2001          1
3   c  1999          1

(如果需要,可以省略.reset_index(),但在这种情况下,您需要将mydf转换为数据帧,如下所示:mydf = pd.DataFrame(mydf),然后才重命名列)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读