在Python Pandas中,可以使用resample()函数对时间序列数据进行分组,其中resample()函数的参数freq可以指定时间间隔。下面介绍一下具体步骤。
- 读取数据
首先需要读取数据,可以使用Pandas中的read_csv()函数,示例代码如下:
import pandas as pd
df = pd.read_csv('data.csv', index_col='date', parse_dates=True)
这里假设读取的数据文件名为data.csv,数据文件包含日期(date)和value两列数据,其中date列为时间序列数据,并将date列设置为索引列。
- 分组
使用resample()函数对数据进行分组,示例代码如下:
df_resampled = df.resample('D').mean()
这里将数据按天('D')进行分组,并计算每组的均值,结果存储在df_resampled中。
- 结果展示
最后将结果展示出来,示例代码如下:
print(df_resampled.head())
其中head()函数默认展示前5行结果。
完整示例代码如下:
import pandas as pd
df = pd.read_csv('data.csv', index_col='date', parse_dates=True)
df_resampled = df.resample('D').mean()
print(df_resampled.head())
这个例子中我们使用了D(day)来表示分组标准。如果要使用其他的时间间隔表达方式,在频率字符串后附加属性的前缀是可以的,例如:
B - Business Day
W - Weekly
M - Month End
SM - Semi-Month End
Q - Quarter End
A - Year End
BA - Business Year End
AS - Year Start
BAS - Business Year Start
需要根据具体情况进行选择。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:如何在Python Pandas中按时间间隔对数据进行分组 - Python技术站