python – 根据列中的最大值过滤pandas Dataframe

发布时间：2020-12-20 11:36:49 所属栏目：Python 来源：网络整理

导读：我在索引中有一个重复值的DataFrame.我想过滤这个数据集只显示每个索引的一个实例,方法是选择索引中具有不同列中最大值的行.例如,我的DataFrame看起来像这样： DF： Product ID Store Sales 1 A 50 1 B 200 1 C 20 2 A 400 2 B 10 3 A 200 4 A 50 4 B 100 4

我在索引中有一个重复值的DataFrame.我想过滤这个数据集只显示每个索引的一个实例,方法是选择索引中具有不同列中最大值的行.例如,我的DataFrame看起来像这样：

DF：

Product ID     Store     Sales
    1            A         50
    1            B        200
    1            C         20
    2            A        400
    2            B         10
    3            A        200
    4            A         50
    4            B        100
    4            C        500

我想将此数据过滤到此：

DF2：

Product ID     Store     Sales
    1            B        200
    2            A        400
    3            A        200
    4            C        500

关于如何在熊猫中最好地解决这个问题的任何想法？

非常感谢你花时间陪伴 –

解决方法

您可以在“产品ID”上执行分组,然后在“销售”列上应用idxmax.
这将创建一个具有最高值索引的系列.
然后,我们可以使用索引值使用iloc索引到原始数据帧

In [201]:

df.iloc[df.groupby('Product ID')['Sales'].agg(pd.Series.idxmax)]
Out[201]:
   Product_ID Store  Sales
1           1     B    200
3           2     A    400
5           3     A    200
8           4     C    500

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!