python – pandas数据帧中的编码分解列表

python – pandas数据帧中的编码分解列表,第1张

概述我试图通过对它们进行分解编码数据框中的类别列表.然后,我将从这一系列列表中创建一个矩阵(将它们标准化为设定长度,创建一个多维数组,并对矩阵中的元素进行一次热编码). 但是,这些因素不能保持行之间的一致性. 这可以在这里看到: >>> import pandas as pd>>> df = pd.DataFrame({'A': [ ['Other', 'Male', 'Female', 'Mal @H_502_6@ 我试图通过对它们进行分解来编码数据框中的类别列表.然后,我将从这一系列列表中创建一个矩阵(将它们标准化为设定长度,创建一个多维数组,并对矩阵中的元素进行一次热编码).

但是,这些因素不能保持行之间的一致性.
这可以在这里看到:

>>> import pandas as pd>>> df = pd.DataFrame({'A': [ ['Other','Male','Female','Other'],['Female','Other','Male'] ]})>>> df['B'] = df.A.apply(lambda x: pd.factorize(x)[0])>>> df                                    A                B0  [Other,Male,Female,Other]  [0,1,2,0]1               [Female,Other,Male]        [0,2]

有谁知道如何维护这个系列的编码在行之间是相同的?

解决方法 您可以使用sklearn中的 LabelEncoder

适合编码器:

from sklearn import preprocessingle = preprocessing.LabelEncoder()le.fit([s for l in df.A for s in l])

转换列:

df.A.apply(le.transform)#0    [2,2]#1          [0,1]#name: A,dtype: objectle.classes_#array(['Female',#      dtype='<U6')
总结

以上是内存溢出为你收集整理的python – pandas数据帧中的编码/分解列表全部内容,希望文章能够帮你解决python – pandas数据帧中的编码/分解列表所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/langs/1193993.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-06-03
下一篇2022-06-03

发表评论

登录后才能评论

评论列表(0条)

    保存