【问题标题】:Multiple Categorical values for a single feature how to convert them to binary using python单个特征的多个分类值如何使用python将它们转换为二进制
【发布时间】:2023-04-03 21:02:01
【问题描述】:

我有一个包含 28 列的电影数据集。其中之一是流派。对于该数据集中的每一行,列类型的值的形式为“动作|动画|喜剧|家庭|幻想”。
我想使用 pandas.get_dummies() 对它们进行编码,但由于列有多个值,如何处理这种情况?

我附上了样本数据,但只有相关的列Data
我期待输出为Output

但是当我使用下面的代码将分类值转换为二进制时,

import pandas as pd
Data = pd.read_csv('sample.csv', encoding = "ISO-8859-1")
DataConverted = pd.get_dummies(Data)
DataConverted.to_csv('sample_out.csv')

输出如下所示(我不能发布超过两张图片):

movie_title_Avatar ,movie_title_Pirates of the Caribbean: At World's End ,movie_title_Spectre ,genres_Action|Adventure|Fantasy,genres_Action|Adventure|Fantasy|Sci-Fi,genres_Action|Adventure|Thriller
1.0,0.0,0.0,0.0,1.0,0.0
0.0,1.0,0.0,1.0,0.0,0.0
0.0,0.0,1.0,0.0,0.0,1.0

【问题讨论】:

标签:
python
python-3.x
pandas
scikit-learn