Python Pandas 如何shuffle（打乱）数据

当我们从文件、数据库或其他来源读入数据时，有时为了保证数据集的随机性，需要将数据集打乱。在Python Pandas中，可以通过shuffle()函数轻松实现数据集打乱。下面就是Python Pandas如何shuffle（打乱）数据的完整攻略：

要使用的库和数据

要打乱数据集，首先需要读入数据。可以使用Pandas中的read_csv()函数读入csv文件中的数据集。示例如下：

data = pd.read_csv('data.csv')

读入数据集后，就可以使用shuffle()函数将数据集打乱。示例如下：

data_shuffled = data.sample(frac=1)

这里使用sample()函数完成数据集打乱。其中frac参数表示返回数据集的比例，当其值为1时，就表示返回整个数据集，并打乱数据顺序。打印数据集输出的顺序就可以验证数据是否被打乱。

可以将shuffle()函数封装为一个函数，以便反复使用。

def shuffle_data(data):
    return data.sample(frac=1)

下面给出两个示例说明。

假设我们有一个csv文件"data.csv"，其内容如下：

name,age,score
Jack,18,85
Lucy,17,80
Mike,19,70
Tom,20,90

我们可以使用以下代码读入csv文件并打印输出：

import pandas as pd

data = pd.read_csv('data.csv')
print(data)

输出的结果如下：

   name  age  score
0  Jack   18     85
1  Lucy   17     80
2  Mike   19     70
3   Tom   20     90

接下来使用以下代码打乱数据集并打印输出：

data_shuffled = data.sample(frac=1)
print(data_shuffled)

输出的结果如下：

   name  age  score
1  Lucy   17     80
3   Tom   20     90
0  Jack   18     85
2  Mike   19     70

可以看到，数据集被成功打乱。

下面是一个更为实用的示例。假设我们有一个MNIST数据集，其包含数字0到9的数字图像。我们可以使用以下方式读入MNIST数据集：

import pandas as pd

data = pd.read_csv('mnist.csv')
print(data)

然后，我们可以使用以下方式打乱MNIST数据集：

data_shuffled = shuffle_data(data)
print(data_shuffled)

这里，shuffle_data()函数用于打乱数据集。我们可以通过输出的数据集内容和顺序验证数据是否被打乱。如果顺序已被打乱，就可以继续进行后续的数据分割、训练和预测。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python Pandas 如何shuffle（打乱）数据 - Python技术站