以下是关于“Python 数据集切分实例”的完整攻略,其中包含两个示例说明。
示例1:随机切分数据集
步骤1:导入必要库
在切分数据集之前,我们需要导入一些必要的库,包括numpy
和sklearn
。
import numpy as np
from sklearn.model_selection import train_test_split
步骤2:定义数据
在这个示例中,我们使用随机生成的数据来演示如何随机切分数据集。
# 定义随机生成的数据
X = np.random.rand(100, 10)
y = np.random.randint(0, 2, 100)
步骤3:切分数据集
使用定义的数据,随机切分数据集。
# 切分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 输出结果
print(f'Train set size: {len(X_train)}')
print(f'Test set size: {len(X_test)}')
步骤4:结果分析
使用train_test_split()
函数可以方便地随机切分数据集。在这个示例中,我们使用train_test_split()
函数随机切分了数据集,并成功地输出了结果。
示例2:按照类别切分数据集
步骤1:导入必要库
在切分数据集之前,我们需要导入一些必要的库,包括numpy
和sklearn
。
import numpy as np
from sklearn.model_selection import train_test_split
步骤2:定义数据
在这个示例中,我们使用随机生成的数据来演示如何按照类别切分数据集。
# 定义随机生成的数据
X = np.random.rand(100, 10)
y = np.random.randint(0, 2, 100)
步骤3:切分数据集
使用定义的数据,按照类别切分数据集。
# 按照类别切分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)
# 输出结果
print(f'Train set size: {len(X_train)}')
print(f'Test set size: {len(X_test)}')
步骤4:结果分析
使用train_test_split()
函数可以方便地按照类别切分数据集。在这个示例中,我们使用train_test_split()
函数按照类别切分了数据集,并成功地输出了结果。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python数据集切分实例 - Python技术站