加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 根据列中的最大值过滤pandas Dataframe

发布时间:2020-12-20 11:36:49 所属栏目:Python 来源:网络整理
导读:我在索引中有一个重复值的DataFrame.我想过滤这个数据集只显示每个索引的一个实例,方法是选择索引中具有不同列中最大值的行.例如,我的DataFrame看起来像这样: DF: Product ID Store Sales 1 A 50 1 B 200 1 C 20 2 A 400 2 B 10 3 A 200 4 A 50 4 B 100 4
我在索引中有一个重复值的DataFrame.我想过滤这个数据集只显示每个索引的一个实例,方法是选择索引中具有不同列中最大值的行.例如,我的DataFrame看起来像这样:

DF:

Product ID     Store     Sales
    1            A         50
    1            B        200
    1            C         20
    2            A        400
    2            B         10
    3            A        200
    4            A         50
    4            B        100
    4            C        500

我想将此数据过滤到此:

DF2:

Product ID     Store     Sales
    1            B        200
    2            A        400
    3            A        200
    4            C        500

关于如何在熊猫中最好地解决这个问题的任何想法?

非常感谢你花时间陪伴 –

解决方法

您可以在“产品ID”上执行分组,然后在“销售”列上应用idxmax.
这将创建一个具有最高值索引的系列.
然后,我们可以使用索引值使用iloc索引到原始数据帧

In [201]:

df.iloc[df.groupby('Product ID')['Sales'].agg(pd.Series.idxmax)]
Out[201]:
   Product_ID Store  Sales
1           1     B    200
3           2     A    400
5           3     A    200
8           4     C    500

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读