Python Pandas是一个基于NumPy的Python库,提供了一个高效的数据分析工具集。在Pandas中,可以通过sample函数来对大型数据集进行随机抽样。
1. sample函数介绍
Pandas通过sample函数来对数据集进行随机抽样。sample函数的语法如下:
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
主要参数说明:
- n:抽取样本的数量
- frac:抽取样本占原始数据集的比例
- replace:是否有放回地抽样
- weights:是一个可选参数,为样本中每行的权重
- random_state:随机种子
- axis:抽样方向
其中,n和frac只能设定其中一个参数。
2. 示例说明
示例1:随机抽取数据集中20%的数据
首先,创建一个数据集:
import pandas as pd
import numpy as np
df = pd.DataFrame({'A': [1,2,3,4,5], 'B': [6,7,8,9,10],'C': ['a', 'b', 'c', 'd', 'e']})
print(df)
输出:
A B C
0 1 6 a
1 2 7 b
2 3 8 c
3 4 9 d
4 5 10 e
随机抽取数据集中的20%进行抽样:
sampled_df = df.sample(frac=0.2)
print(sampled_df)
输出:
A B C
1 2 7 b
示例2:随机抽取数据集中3条数据
随机抽取数据集中的3条数据:
sampled_df = df.sample(n=3)
print(sampled_df)
输出:
A B C
0 1 6 a
2 3 8 c
3 4 9 d
3. 总结
通过Pandas的sample函数,用户可以轻松对大型数据集进行随机抽样操作,并根据具体需求,设置相应参数。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python Pandas如何对数据集随机抽样 - Python技术站