如何在Pandas中扁平化MultiIndex

2023年3月27日下午3:32 • python-answer

在Pandas中，MultiIndex可以在数据分析和数据聚合中非常便利，它能够用于解决很多复杂的问题。但是，在一些特别的情况下，MultiIndex也可能给分析带来一些困扰，尤其是当需要将复合索引转化成标准的索引时，可能会带来一定的复杂性。在这种情况下，我们需要将MultiIndex“扁平化”，本文将详细介绍如何在Pandas中实现这一操作。

步骤一：导入所需模块

在进行操作前，需要导入所需的模块，包括Pandas和Numpy：

import pandas as pd
import numpy as np

步骤二：创建多层级索引DataFrame

接下来，我们首先需要创建一个多层级索引DataFrame。这里我们采用餐馆点餐数据作为示例，代码如下：

arrays = [['A', 'A', 'A', 'B', 'B', 'B'], ['Soup', 'Noodles', 'Rice', 'Soup', 'Noodles', 'Rice']]
tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=['Restaurant', 'Menu'])
orders = pd.DataFrame({'Qty': [20, 10, 15, 30, 25, 20]}, index=index)

这里我们定义了两个列表arrays和tuples，通过zip()函数将两个列表合并成一个元组列表，最后通过pd.MultiIndex.from_tuples()将元组列表转化为多层级索引。然后创建DataFrame对象orders，包含了一个Qty列和我们刚才创建的多层级索引index。

步骤三：使用reset_index()进行扁平化

接下来我们就可以使用reset_index()函数，将多层级索引转化为标准的索引：

orders_flat = orders.reset_index()

reset_index()函数将索引重置为新的整数值，同时将原来的索引列转化为普通列，因此orders_flat现在就是一个标准的DataFrame了。

步骤四：使用get_level_values()函数扁平化

除了使用reset_index()函数来扁平化多层级索引之外，还可以使用get_level_values()函数，将MultiIndex的每一级分别提取出来，然后再重新放到一个DataFrame中。这里我们可以采用一个循环遍历每一级别来实现，示例如下：

orders_flat = pd.DataFrame(index=range(len(orders)), columns=orders.index.names + ['Qty'])
for i, level in enumerate(orders.index.names):
    orders_flat[level] = orders.index.get_level_values(level)
orders_flat['Qty'] = orders['Qty'].values

这里我们首先创建了一个空的DataFrame orders_flat，然后通过一个循环遍历每个索引级别，并使用get_level_values()函数获取该级别的索引值，将这些值保存到orders_flat对应的列中。最后将orders中的Qty列值复制到orders_flat的Qty列中。

总结

在本文中，我们介绍了两种方法来扁平化Pandas中的MultiIndex，即使用reset_index()函数和get_level_values()函数。这两种方法在转化复合索引为标准索引时都非常有用，可以根据不同的使用场景选择合适的方法。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：如何在Pandas中扁平化MultiIndex - Python技术站