python – pandas数据帧中的编码/分解列表

发布时间：2020-12-20 12:02:06 所属栏目：Python 来源：网络整理

导读：我试图通过对它们进行分解来编码数据框中的类别列表.然后,我将从这一系列列表中创建一个矩阵(将它们标准化为设定长度,创建一个多维数组,并对矩阵中的元素进行一次热编码). 但是,这些因素不能保持行之间的一致性. 这可以在这里看到： import pandas as pd df

我试图通过对它们进行分解来编码数据框中的类别列表.然后,我将从这一系列列表中创建一个矩阵(将它们标准化为设定长度,创建一个多维数组,并对矩阵中的元素进行一次热编码).

但是,这些因素不能保持行之间的一致性.
这可以在这里看到：

>>> import pandas as pd
>>> df = pd.DataFrame({'A': [ ['Other','Male','Female','Other'],['Female','Other','Male'] ]})
>>> df['B'] = df.A.apply(lambda x: pd.factorize(x)[0])
>>> df
                                    A                B
0  [Other,Male,Female,Other]  [0,1,2,0]
1               [Female,Other,Male]        [0,2]

有谁知道如何维护这个系列的编码在行之间是相同的？

解决方法

您可以使用sklearn中的 LabelEncoder：

适合编码器：

from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([s for l in df.A for s in l])

转换列：

df.A.apply(le.transform)
#0    [2,2]
#1          [0,1]
#Name: A,dtype: object

le.classes_
#array(['Female',#      dtype='<U6')

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!