使用Scikit-learn实现分类模型

2023年3月8日下午8:32 • Scikit-learn

Scikit-learn是一个在Python语言中广泛使用的机器学习库，它提供方便而又高效的数据挖掘和数据分析工具。Scikit-learn中包含了多个分类算法，如决策树、朴素贝叶斯、支持向量机等，下面将介绍如何使用Scikit-learn实现分类模型并提供一个实例说明。

首先需要导入Scikit-learn库及其他常用的Python库，如NumPy、Pandas等。

import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

接下来，我们使用Scikit-learn自带的鸢尾花数据集来实现一个分类模型。鸢尾花数据集包含了150朵鸢尾花的花萼长度、花萼宽度、花瓣长度、花瓣宽度以及其所属种类（Setosa、Versicolour、Virginica）。

iris = datasets.load_iris()
X = iris.data
y = iris.target

print(X.shape, y.shape)
# 输出结果：(150, 4) (150,)

我们可以看到，该数据集一共包含150个样本，每个样本有4个特征。接下来，对数据集进行划分，分别用于训练模型和测试模型。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print(X_train.shape, y_train.shape)
# 输出结果：(112, 4) (112,)
print(X_test.shape, y_test.shape)
# 输出结果：(38, 4) (38,)

接下来，我们将使用支持向量机算法（SVM）来实现分类模型。

from sklearn.svm import SVC

clf = SVC(kernel='linear')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print('Accuracy:', accuracy_score(y_test, y_pred))
# 输出结果：0.9736842105263158

在上述代码中，我们使用SVM算法来训练分类模型，并使用线性核函数（linear）来处理数据，最后通过accuracy_score方法来评估模型的准确率。输出结果表明该模型的准确率为97.36%。

除了支持向量机算法，Scikit-learn还提供其他多个分类算法，如决策树、朴素贝叶斯等，使用方式大多类似。对于不同的数据集和问题，我们可以根据具体情况选择合适的算法来实现分类模型。

总之，Scikit-learn提供了便利且简洁易用的API，即使是机器学习初学者也能够方便地使用该库来实现各种分类模型。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：使用Scikit-learn实现分类模型 - Python技术站

使用Scikit-learn实现分类模型

相关文章