加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 在Pandas中,如何根据多列的组合创建一个唯一的ID?

发布时间:2020-12-20 11:51:10 所属栏目:Python 来源:网络整理
导读:我有一个非常大的数据集,看起来像 df = pd.DataFrame({'B': ['john smith','john doe','adam smith',np.nan],'C': ['indiana jones','duck mc duck','batman',np.nan]})dfOut[173]: B C0 john smith indiana jones1 john doe duck mc duck2 adam smith batma
我有一个非常大的数据集,看起来像

df = pd.DataFrame({'B': ['john smith','john doe','adam smith',np.nan],'C': ['indiana jones','duck mc duck','batman',np.nan]})

df
Out[173]: 
            B              C
0  john smith  indiana jones
1    john doe   duck mc duck
2  adam smith         batman
3    john doe   duck mc duck
4         NaN            NaN

我需要创建一个ID变量,这对于每个B-C组合都是唯一的.也就是说,输出应该是

B              C   ID
0  john smith  indiana jones   1
1    john doe   duck mc duck   2
2  adam smith         batman   3
3    john doe   duck mc duck   2 
4         NaN            NaN   0

我实际上不关心索引是否从零开始,以及缺失列的值是0还是任何其他数字.我只是想要一些快速的东西,它不会占用大量内存并且可以快速排序.
我用:

df['combined_id']=(df.B+df.C).rank(method='dense')

但输出是float64并占用大量内存.我们可以做得更好吗?
谢谢!

解决方法

我想你可以使用 factorize

df['combined_id'] = pd.factorize(df.B+df.C)[0]
print df
            B              C  combined_id
0  john smith  indiana jones            0
1    john doe   duck mc duck            1
2  adam smith         batman            2
3    john doe   duck mc duck            1
4         NaN            NaN           -1

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读