
但是,这些因素不能保持行之间的一致性.
这可以在这里看到:
>>> import pandas as pd>>> df = pd.DataFrame({'A': [ ['Other','Male','Female','Other'],['Female','Other','Male'] ]})>>> df['B'] = df.A.apply(lambda x: pd.factorize(x)[0])>>> df A B0 [Other,Male,Female,Other] [0,1,2,0]1 [Female,Other,Male] [0,2] 有谁知道如何维护这个系列的编码在行之间是相同的?
解决方法 您可以使用sklearn中的LabelEncoder: 适合编码器:
from sklearn import preprocessingle = preprocessing.LabelEncoder()le.fit([s for l in df.A for s in l])
转换列:
df.A.apply(le.transform)#0 [2,2]#1 [0,1]#name: A,dtype: objectle.classes_#array(['Female',# dtype='<U6')总结
以上是内存溢出为你收集整理的python – pandas数据帧中的编码/分解列表全部内容,希望文章能够帮你解决python – pandas数据帧中的编码/分解列表所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)