python – 一种更快的方法来删除熊猫中未使用的类别?
发布时间:2020-12-20 11:55:49 所属栏目:Python 来源:网络整理
导读:我在 Python中运行一些模型,在类别上使用数据子集. 对于内存使用和预处理,所有分类变量都存储为类别数据类型. 对于我的“分组依据”列中的分类变量的每个级别,我正在运行回归,我需要将所有分类变量重置为该子集中存在的变量. 我目前正在使用.cat.remove_unus
我在
Python中运行一些模型,在类别上使用数据子集.
对于内存使用和预处理,所有分类变量都存储为类别数据类型. 对于我的“分组依据”列中的分类变量的每个级别,我正在运行回归,我需要将所有分类变量重置为该子集中存在的变量. 我目前正在使用.cat.remove_unused_categories(),这占我总运行时间的近50%.目前,最糟糕的罪犯是我的分组专栏,其他人没有花费太多时间(因为我猜没有多少级别下降). 这是一个简化的例子: import itertools import pandas as pd #generate some fake data alphabets = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z'] keywords = [''.join(i) for i in itertools.product(alphabets,repeat = 2)] z = pd.DataFrame({'x':keywords}) #convert to category datatype z.x = z.x.astype('category') #groupby z = z.groupby('x') #loop over groups for i in z.groups: x = z.get_group(i) x.x = x.x.cat.remove_unused_categories() #run my fancy model here 在我的笔记本电脑上,这需要大约20秒.对于这个小例子,我们可以转换为str,然后返回到类别以加速,但我的真实数据每组至少有300行. 有可能加快这个循环吗?我尝试过使用类似时间的x.x = x.x.cat.set_categories(i)和x.x.cat.categories = i,它要求我开始使用相同数量的类别. 解决方法
您的问题在于您将z.get_group(i)分配给x. x现在是z的一部分的副本.您的代码可以正常使用此更改
for i in z.groups: x = z.get_group(i).copy() # will no longer be tied to z x.x = x.x.cat.remove_unused_categories() (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐
热点阅读