如何在pandas聚合中计算不同的数据

2023年3月27日下午3:48 • python-answer

下面是针对在pandas聚合中计算不同数据的详细攻略：

1. 聚合函数

在pandas聚合中，有以下几种聚合函数可供使用：

count() 计数
sum() 求和
mean() 求均值
median() 求中位数
min() 求最小值
max() 求最大值
var() 计算方差
std() 计算标准差
describe() 统计描述信息

2. 分组聚合

在进行聚合计算时，需要先按照指定的条件进行分组，再对每个组进行聚合计算。下面是分组聚合的基本步骤：

使用groupby()方法对数据进行分组，并指定分组条件。
对分组后的数据进行聚合计算，例如求和、均值等。
使用agg()方法将聚合计算应用到每个组上，并将其结果聚合为一个新的DataFrame。

例如，我们有以下数据集：

import pandas as pd

data = {
    'name': ['John', 'Mary', 'Tom', 'John', 'Mary', 'Tom'],
    'age': [21, 23, 22, 24, 25, 23],
    'score': [90, 85, 80, 95, 90, 85]
}

df = pd.DataFrame(data)

这个数据集包含三列数据：name、age和score。现在我们要按照name列对数据进行分组，然后求每个组的平均年龄和平均分数。下面是实现的代码：

grouped = df.groupby('name')
result = grouped['age', 'score'].mean().reset_index()

这里使用了groupby()方法将数据按照name列进行分组，并且使用mean()方法求每个组的均值。最终结果为一个新的DataFrame，其中包含了每个组的名称、平均年龄和平均分数。

3. 多重分组

在进行聚合计算时，也可以对多个列进行分组，这被称作多重分组。多重分组的基本步骤与单层分组类似，只不过需要指定多个分组条件。

例如，我们有以下数据集：

import pandas as pd

data = {
    'name': ['John', 'Mary', 'Tom', 'John', 'Mary', 'Tom', 'John', 'Mary', 'Tom'],
    'sex': ['M', 'F', 'M', 'M', 'F', 'M', 'M', 'F', 'M'],
    'age': [21, 23, 22, 24, 25, 23, 22, 24, 25],
    'score': [90, 85, 80, 95, 90, 85, 75, 88, 92]
}

df = pd.DataFrame(data)

这个数据集包含四列数据：name、sex、age和score。现在我们要按照name和sex两列对数据进行分组，然后求每个组的平均年龄和平均分数。下面是实现的代码：

grouped = df.groupby(['name', 'sex'])
result = grouped['age', 'score'].mean().reset_index()

这里使用了groupby()方法将数据按照name和sex两列进行分组，并且使用mean()方法求每个组的均值。最终结果为一个新的DataFrame，其中包含了每个组的名称、性别、平均年龄和平均分数。

4. 计算不同的数据

除了常见的聚合函数，我们也可以自定义计算函数来计算不同的数据。这种方法可以通过agg()方法实现，下面是示例代码：

def diff(arr):
    return arr.max() - arr.min()

grouped = df.groupby('name')
result = grouped['score'].agg(['mean', diff])

这里我们自定义了一个函数diff()，用于计算每个组中的分数最大值和最小值的差值。然后我们使用agg()方法将mean()和diff()两个聚合函数分别应用到每个组上，并将其结果聚合为一个新的DataFrame。

5. 结论

以上就是在pandas聚合中计算不同数据的完整攻略，包括了聚合函数、分组聚合、多重分组和自定义计算函数等内容。希望这篇攻略能够帮助到你！

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：如何在pandas聚合中计算不同的数据 - Python技术站