Pandas中的透视表

2023年3月27日下午2:33 • python-answer

Pandas中的透视表（pivot table）是一种非常有用的数据分析工具，它可以根据一个或多个键来计算按行和列排列的汇总值，就像Excel中的透视表一样。下面我就详细讲解一下Pandas中的透视表是如何使用的。

概述

Pandas中的透视表使用pivot_table函数来实现，其基本语法如下所示：

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

参数说明：

data: 源数据，可以是DataFrame或者Series
values: 要聚合的列，可以是单个列或者由多个列组成的列表
index: 用于分组的列，可以是单个列或者由多个列组成的列表
columns: 用于创建列名的列，可以是单个列或者由多个列组成的列表
aggfunc: 聚合函数，可以是内置函数或者自定义函数，默认为'mean'
fill_value: 使用指定值填充缺失值，默认为None
margins: 是否显示汇总行和列，默认为False
dropna: 是否删除所有值都为NaN的行或列，默认为True
margins_name: 汇总行和列的名称，默认为'All'

示例

下面通过一个示例来演示如何使用Pandas中的透视表。首先，我们创建一个名为sales的DataFrame，其中包含销售数据：

import pandas as pd

sales = pd.DataFrame({
    'region': ['East', 'West', 'North', 'South', 'East', 'West', 'North', 'South'],
    'product': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
    'sales': [100, 200, 300, 400, 500, 600, 700, 800],
    'profit': [10, 20, 30, 40, 50, 60, 70, 80]
})

print(sales)

输出结果如下：

  region product  sales  profit
0   East       A    100      10
1   West       A    200      20
2  North       A    300      30
3  South       A    400      40
4   East       B    500      50
5   West       B    600      60
6  North       B    700      70
7  South       B    800      80

以上数据表示了不同区域、不同产品的销售额和利润。现在，我们想要计算每个区域每个产品的销售额和利润的平均值，可以使用以下代码：

ptable = sales.pivot_table(values=['sales', 'profit'], index='region', columns='product')

print(ptable)

输出结果如下：

        sales     profit    
product     A    B      A   B
region                      
East      100  500     10  50
North     300  700     30  70
South     400  800     40  80
West      200  600     20  60

以上结果就是一个典型的透视表，即按照区域和产品统计销售额和利润的平均值，其中每个区域和产品对应着一行和一列，对应着销售额和利润两个数据列。

参数解释

上面我们已经演示了一个简单的透视表，但还有一些参数需要进一步解释，以便更好地理解透视表的使用方法。

values

values参数指定了要进行聚合操作的列，它可以是单个列名（字符串）或一个列名的列表。如果指定多个列，将会得到多级列名。

index

index参数指定了分组列的列名，它也可以是单个列名（字符串）或一个列名的列表。如果指定了index参数，则每行数据将根据分组列的唯一值分组，然后进行聚合操作。

columns

columns参数用于创建行索引的列名，它可以是单个列名（字符串）或一个列名的列表。如果指定了columns参数，则结果将会是一个多层级的行索引。

aggfunc

aggfunc参数指定了聚合函数，它可以是Pandas内置函数或自定义函数，例如'mean'、'sum'、'count'、'min'、'max'、'std'等。如果不指定，则默认使用'mean'。

fill_value

fill_value参数指定了用于填充缺失值的值，它通常是一个标量值。如果不指定，则使用缺失值的默认值NaN。

margins

margins参数指示是否显示行/列的汇总，默认不显示。汇总行/列的值是统计每行/列的平均值（默认聚合函数为'mean'）。

dropna

dropna参数指示是否删除结果中所有值都为NaN的行或列，默认为True。

margins_name

margins_name参数指定了行/列汇总的名称，默认为All。

结论

Pandas中的透视表是一种强大的数据分析工具，它可以根据源数据中的一个或多个键来计算按行和列排列的汇总值，方便我们进行数据分析。掌握了透视表的使用方法，我们可以轻松地对数据进行分析、挖掘和可视化。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas中的透视表 - Python技术站