python实现决策树分类算法代码示例

接下来我将详细讲解如何用Python实现决策树分类算法。首先，我们需要先了解一下什么是决策树。

什么是决策树？

决策树是一种监督学习算法，用于解决分类和回归问题。它将数据集分成很多小的决策树结构，每个结构代表一个决策，每个结构都有一个根节点，一个或多个内部节点和一个或多个叶节点。根据数据属性的不同值对数据进行递归地分裂，直到所有具有相同分类的数据都在一个叶节点中。

决策树分类算法的步骤

选择一个最佳的属性作为根节点
将数据集根据选定的属性分成几个小的数据集
对于每个小数据集递归调用步骤一和步骤二
直到所有具有相同分类的数据都在一个叶节点中

示例1：使用决策树对iris数据集进行分类

接下来，我们以iris数据集为例，来展示决策树分类算法的具体实现。首先，我们需要加载数据集，代码如下：

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data  # 特征矩阵
y = iris.target  # 标签向量

我们可以使用sklearn库中的DecisionTreeClassifier类来实现决策树分类，代码如下：

from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier()
tree.fit(X, y)

最后，我们可以使用训练好的模型来对新数据进行分类，代码如下：

new_data = [[5.1, 3.5, 1.4, 0.2]]
print(tree.predict(new_data))

输出结果为：

[0]  # 0代表Setosa花

示例2：使用决策树对鸢尾花数据进行分类

接下来，我们对鸢尾花数据进行分类。首先，我们需要加载鸢尾花数据集，代码如下：

import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
df.columns = ['sepal length(cm)', 'sepal width(cm)', 'petal length(cm)', 'petal width(cm)', 'class']
df.head()

然后，我们需要将数据集按照3:1的比例分成训练集和测试集，代码如下：

from sklearn.model_selection import train_test_split
X = df.drop('class', axis=1)  # 特征矩阵
y = df['class']  # 标签向量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

现在，我们可以使用sklearn库中的DecisionTreeClassifier类来训练模型，代码如下：

from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)

最后，我们可以使用训练好的模型来对测试集的数据进行分类，代码如下：

y_pred = tree.predict(X_test)
print('Accuracy:', tree.score(X_test, y_test))

输出结果为：

Accuracy: 0.9777777777777777

结论

在本文中，我们展示了如何使用Python实现决策树分类算法，并且使用了两个示例来介绍如何应用决策树分类。希望这篇文章对你们有所帮助。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python实现决策树分类算法代码示例 - Python技术站

python实现决策树分类算法代码示例

什么是决策树？

决策树分类算法的步骤

示例1：使用决策树对iris数据集进行分类

示例2：使用决策树对鸢尾花数据进行分类

结论

相关文章