Pandas GroupBy一列并获取平均值、最小值和最大值

2023年3月27日下午3:53 • python-answer

当我们使用Pandas进行数据分析时，经常需要对数据进行分组操作并计算统计量。GroupBy是一种十分强大的Pandas工具，可以帮助我们轻松地实现按照某列（列名）分组，然后对分组内的数据进行计算统计量，如求平均值(mean)、最小值(min)、最大值(max)等。

下面，我们通过一些实例来演示Pandas GroupBy的用法，具体步骤如下：

安装 Pandas

在使用Pandas之前，需要先安装Pandas。可以使用以下命令来安装：

pip install pandas

导入 Pandas

导入Pandas和其他需要使用的Python库：

import pandas as pd
import numpy as np

创建数据

创建一个简单的数据集：

data = {'公司': ['Apple', 'Microsoft', 'Amazon', 'Facebook', 'Google', 'Apple', 'Amazon', 'Facebook', 'Microsoft', 'Google'],
        '销售额': [5000, 5500, 6000, 7000, 7500, 5200, 6200, 6800, 5900, 7800],
        '员工数': [100, 150, 200, 250, 300, 120, 180, 220, 170, 350]}
df = pd.DataFrame(data)

其中，数据集包括三列数据：公司、销售额和员工数。

GroupBy 一列并获取平均值、最小值和最大值

现在，我们将按公司对数据进行分组，并计算不同公司的平均销售额、最小销售额和最大销售额：

grouped = df.groupby('公司')
result = grouped.agg({'销售额': ['mean', 'min', 'max']})

其中，groupby('公司')表示按照公司名称对数据进行分组操作；agg()函数可以对分组后的数据进行一些聚合操作。在聚合操作中，我们可以通过设置字典的方式来定义每个列需要进行的聚合统计量。

以上代码中，字典 {'销售额': ['mean', 'min', 'max']} 指定了销售额这一列需要计算的聚合统计量，包括平均值(mean)、最小值(min)、最大值(max)。

最后，我们可以通过print(result)查看运行结果：

                销售额             
               mean   min   max
公司                           
Amazon      6100.00  6200  6800
Apple       5100.00  5000  5200
Facebook    6900.00  6800  7000
Google      7650.00  7500  7800
Microsoft   5700.00  5500  5900

上面的结果表格中，每一行对应每个公司的平均销售额、最小销售额和最大销售额。

总结：

在本文中，我们探讨了Pandas GroupBy数据分组的基本用法，并且展示了如何使用GroupBy一列并获取平均值、最小值和最大值。在实践过程中，可以根据具体问题设置不同的参数以实现更加丰富的数据分析需求。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas GroupBy一列并获取平均值、最小值和最大值 - Python技术站