用Pandas Groupby模块创建非层次化的列

2023年3月27日下午3:47 • python-answer

Pandas是Python语言中经常使用的数据处理库，其中Groupby模块用于对数据集进行分组操作，可以通过Groupby模块创建非层次化的列来更好地呈现数据，以下是详细讲解：

1.导入Pandas模块

在使用Pandas Groupby模块之前，需要先导入相关模块，可通过以下方式进行导入：

import pandas as pd

2.创建数据集

在对数据进行分组之前，需要先创建数据集，本次使用的数据集是一份销售数据，包含商品名称、销售日期和销售额等多种信息。可以通过以下代码创建这份数据集：

data = {'商品名称': ['苹果', '香蕉', '苹果', '芒果', '芒果', '香蕉', '苹果', '苹果'], '销售日期': ['2020-01-01', '2020-01-01', '2020-01-02', '2020-01-02', '2020-01-02', '2020-01-03', '2020-01-03', '2020-01-04'], '销售额': ['100', '200', '300', '400', '500', '600', '700', '800']}
df = pd.DataFrame(data)

3.使用Groupby模块创建非层次化的列

使用Groupby模块的一个重要用途就是可以对数据集进行分组操作。本次我们要通过Groupby模块创建非层次化的列，即在数据集中添加新的一列，新一列的值是根据原数据集的一个或多个特征进行分组后的汇总结果。

下面的代码示例中，我们以“商品名称”为分组基准，对“销售额”进行求和，并将求和结果添加到数据集中的新一列“总销售额”中。代码示例如下：

df['总销售额'] = df.groupby('商品名称')['销售额'].transform('sum')

在执行完以上代码后，数据集将变为以下样子：

	商品名称	销售日期	销售额	总销售额
0	苹果	2020-01-01	100	1100
1	香蕉	2020-01-01	200	800
2	苹果	2020-01-02	300	1100
3	芒果	2020-01-02	400	900
4	芒果	2020-01-02	500	900
5	香蕉	2020-01-03	600	800
6	苹果	2020-01-03	700	1100
7	苹果	2020-01-04	800	1100