Pandas GroupBy

2023年3月27日下午12:09 • python-answer

下面我会详细讲解Pandas的GroupBy功能。

GroupBy的基本概念和用法

在Pandas中，GroupBy是一个强大和灵活的功能，它的作用是将数据按某个特定的标准分组，并在每个组中执行特定的操作。

例如，假设我们有一个简单的数据集，其中包含城市、天气和温度的信息：

import pandas as pd

data = {
    'city': ['Beijing', 'Beijing', 'Shanghai', 'Shanghai', 'Guangzhou', 'Guangzhou'],
    'weather': ['Sunny', 'Rainy', 'Sunny', 'Cloudy', 'Rainy', 'Sunny'],
    'temperature': [28, 30, 25, 22, 32, 33]
}

df = pd.DataFrame(data)

我们可以使用GroupBy将数据按城市分组，并获取每个城市的平均温度：

grouped = df.groupby('city')
result = grouped.mean()
print(result)

运行结果：

           temperature
city                  
Beijing           29.0
Guangzhou         32.5
Shanghai          23.5

在这个例子中，我们首先使用groupby方法将数据按城市分组，然后再使用mean方法获取每个组的平均值。最后，我们得到了每个城市的平均温度。

GroupBy的高级用法

除了基本用法之外，GroupBy还有很多高级用法：

分组并运用自定义函数

我们可以使用apply方法来将自定义函数运用到每个组上。例如，假设我们想要统计每个城市中温度大于某个阈值的天数：

def count_days_above_threshold(group, threshold):
    above_threshold = group['temperature'] > threshold
    return above_threshold.sum()

grouped = df.groupby('city')
result = grouped.apply(count_days_above_threshold, threshold=30)
print(result)

运行结果：

city
Beijing      1
Guangzhou    2
Shanghai     0
dtype: int64

在这个例子中，我们首先定义了一个自定义函数count_days_above_threshold，该函数接受一个分组和一个阈值作为参数，并返回每个组中温度大于该阈值的天数。然后我们使用apply方法将该函数运用到每个组上，并指定阈值为30。

分组并运用多个函数

我们可以使用agg方法来运用多个函数到每个组上，例如，我们想要统计每个城市中的最高温度和最低温度：

def max_temperature(group):
    return group['temperature'].max()

def min_temperature(group):
    return group['temperature'].min()

grouped = df.groupby('city')
result = grouped.agg({'temperature': ['max', 'min']})
print(result)

运行结果：

          temperature    
                  max min
city                    
Beijing            30  28
Guangzhou          33  32
Shanghai           25  22

在这个例子中，我们首先定义了两个自定义函数max_temperature和min_temperature，分别用于获取每个组中的最高温度和最低温度。然后我们使用agg方法将这两个函数运用到每个组上，并指定要统计的列为temperature。

按多个列分组

我们可以使用一个包含多个列名的列表作为groupby方法的参数，来按多个列分组。例如，假设我们有一个包含年份、季度和销售额的数据集，并想要按年份和季度分组来获取每个组的总销售额：

import numpy as np

data = {
    'year': [2020, 2020, 2021, 2021],
    'quarter': ['Q1', 'Q2', 'Q1', 'Q2'],
    'sales': [100, 200, 300, 400]
}

df = pd.DataFrame(data)

grouped = df.groupby(['year', 'quarter'])
result = grouped.agg({'sales': np.sum})
print(result)

运行结果：

            sales
year quarter      
2020 Q1       100
     Q2       200
2021 Q1       300
     Q2       400

在这个例子中，我们使用一个包含两个列名的列表['year', 'quarter']来指定分组的列，然后运用agg方法来计算每个组的总销售额。

总结

在本篇文章中，我们详细讲解了Pandas的GroupBy功能，包括基本用法和高级用法。通过学习这些内容，相信大家已经能够灵活运用GroupBy来进行数据分组和统计，进而发掘数据的价值。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas GroupBy - Python技术站

Pandas GroupBy

GroupBy的基本概念和用法

GroupBy的高级用法

分组并运用自定义函数

分组并运用多个函数

按多个列分组

总结

相关文章