【发布时间】:2023-04-03 21:02:01
【问题描述】:
我有一个包含 28 列的电影数据集。其中之一是流派。对于该数据集中的每一行,列类型的值的形式为“动作|动画|喜剧|家庭|幻想”。
我想使用 pandas.get_dummies() 对它们进行编码,但由于列有多个值,如何处理这种情况?
我附上了样本数据,但只有相关的列Data。
我期待输出为Output。
但是当我使用下面的代码将分类值转换为二进制时,
import pandas as pd
Data = pd.read_csv('sample.csv', encoding = "ISO-8859-1")
DataConverted = pd.get_dummies(Data)
DataConverted.to_csv('sample_out.csv')
输出如下所示(我不能发布超过两张图片):
movie_title_Avatar ,movie_title_Pirates of the Caribbean: At World's End ,movie_title_Spectre ,genres_Action|Adventure|Fantasy,genres_Action|Adventure|Fantasy|Sci-Fi,genres_Action|Adventure|Thriller
1.0,0.0,0.0,0.0,1.0,0.0
0.0,1.0,0.0,1.0,0.0,0.0
0.0,0.0,1.0,0.0,0.0,1.0
【问题讨论】:
-
原始问题在这里有更好的答案:datascience.stackexchange.com/questions/14847/…
标签:
python
python-3.x
pandas
scikit-learn
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:单个特征的多个分类值如何使用python将它们转换为二进制 - Python技术站