以下是关于“Python 划分数据集为训练集和测试集的方法”的完整攻略,其中包含两个示例说明。
示例1:使用 Python 和 scikit-learn 库划分数据集
步骤1:导入必要库
在使用 Python 和 scikit-learn 库划分数据集之前,我们需要导入一些必要的库,包括numpy
和sklearn
。
import numpy as np
from sklearn.model_selection import train_test_split
步骤2:加载数据集
在这个示例中,我们使用 scikit-learn 库自带的 iris 数据集来演示如何使用 Python 和 scikit-learn 库划分数据集。
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
步骤3:划分数据集
使用train_test_split
函数划分数据集。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
步骤4:结果分析
通过以上步骤,我们可以使用 Python 和 scikit-learn 库划分数据集,并成功地输出了结果。
示例2:使用 Python 和 numpy 库划分数据集
步骤1:导入必要库
在使用 Python 和 numpy 库划分数据集之前,我们需要导入一些必要的库,包括numpy
。
import numpy as np
步骤2:加载数据集
在这个示例中,我们使用 numpy 库自带的 iris 数据集来演示如何使用 Python 和 numpy 库划分数据集。
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
步骤3:划分数据集
使用numpy
库划分数据集。
np.random.seed(42)
indices = np.random.permutation(len(X))
train_indices, test_indices = indices[:int(len(X)*0.8)], indices[int(len(X)*0.8):]
X_train, X_test = X[train_indices], X[test_indices]
y_train, y_test = y[train_indices], y[test_indices]
步骤4:结果分析
通过以上步骤,我们可以使用 Python 和 numpy 库划分数据集,并成功地输出了结果。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python 划分数据集为训练集和测试集的方法 - Python技术站