如何用 Python 处理不平衡数据集

处理不平衡数据集是机器学习中重要的一步，可以提高模型的准确性和可靠性。Python提供了多种处理不平衡数据集的方法，下面我将详细讲解如何使用Python处理不平衡数据集的完整攻略。

1. 了解不平衡数据集

不平衡数据集指的是在数据集中，某一类别的样本数量远远少于其他类别的样本数量，造成了类别分布的不均衡。常见的不平衡数据集有金融欺诈、医疗诊断中的病情少数类、网络安全中的攻击行为等。

2. 相关库的导入

在处理不平衡数据集时，我们需要导入一些库，包括numpy、pandas、sklearn、imblearn等。其中，imblearn是专门用于处理不平衡数据集的库。

import numpy as np
import pandas as pd
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler

3. 加载数据集

通常，我们需要从文件中读取数据集，并将其转换为适当的格式。在这个示例中，我们使用一个信用卡欺诈检测的样本数据集。该数据集包含两个类别，即欺诈和非欺诈交易，并包括28个特征。数据集中欺诈交易占总交易的比例非常低，只有0.172%。

# 加载数据集并分割特征和标签
df = pd.read_csv('creditcard.csv')
X = df.drop(columns=['Class'])
y = df['Class']

# 将数据集分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4. 使用决策树模型训练数据

我们使用决策树模型训练数据，并评估模型的性能。

# 使用决策树模型训练数据
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)

# 在测试集中评估模型性能
y_pred = dt.predict(X_test)
print(classification_report(y_test, y_pred))

在测试集上，决策树模型的准确率为0.999，但是查看分类报告会发现，由于不平衡数据集，模型在预测欺诈交易时准确率只有0.68。

5. 使用采样方法解决数据不均衡问题

针对不平衡数据集，可以使用采样方法来解决问题。在这个示例中，我们将介绍两种采样方法：随机过采样和随机欠采样。

5.1 随机过采样

随机过采样是指对少数类的样本进行复制，使得少数类的样本数与多数类的样本数相当。在Python中，我们可以使用RandomOverSampler类实现随机过采样。

# 使用随机过采样方法处理不平衡数据集
ros = RandomOverSampler(random_state=42)
X_resampled, y_resampled = ros.fit_resample(X_train, y_train)

# 使用决策树模型训练采样后的数据
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_resampled, y_resampled)

# 在测试集中评估模型性能
y_pred = dt.predict(X_test)
print(classification_report(y_test, y_pred))

在测试集上，决策树模型的准确率为0.999，并且在预测欺诈交易时准确率提高到0.86。

5.2 随机欠采样

随机欠采样是指删除多数类的样本，使得多数类的样本数与少数类的样本数相当。在Python中，我们可以使用RandomUnderSampler类实现随机欠采样。

# 使用随机欠采样方法处理不平衡数据集
rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X_train, y_train)

# 使用决策树模型训练采样后的数据
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_resampled, y_resampled)

# 在测试集中评估模型性能
y_pred = dt.predict(X_test)
print(classification_report(y_test, y_pred))

在测试集上，决策树模型的准确率为0.942，并且在预测欺诈交易时准确率提高到0.81。

6. 总结

在这个示例中，我们介绍了处理不平衡数据集的完整攻略，包括了理解不平衡数据集、导入相关库、加载数据集、使用决策树模型训练数据和使用采样方法解决数据不均衡问题等。我们还通过两个示例说明了随机过采样和随机欠采样两种采样方法的使用。如果您在处理不平衡数据集时遇到了问题，可以使用这些方法来提高模型的准确性和可靠性。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：如何用 Python 处理不平衡数据集 - Python技术站