使用Pandas Melt将Wide DataFrame重塑为带有标识符的Tidy

2023年3月27日下午3:23 • python-answer

下面是详细的Pandas Melt使用攻略：

首先，我们需要了解什么是Wide 和Tidy的数据格式。

Wide格式是指数据以多列形式呈现，每一列都代表一个变量。这种格式的数据不利于数据分析和处理，因为数据的存储格式并不统一。

Tidy格式是指数据以一列的形式呈现，每一行都代表一个观测，每一列都代表一个变量，每个单元格中存储着该观测值对应变量的值。这种格式的数据便于统计分析和可视化。

使用Pandas Melt函数可以将Wide格式的数据重塑为Tidy格式的数据，使得其更加易于操作和分析。Melt函数的主要参数如下：

id_vars：指定需要保留的列作为标识符。
value_vars：指定需要进行重塑的列。
var_name：指定重塑后变量列的列名。
value_name：指定重塑后值列的列名。

下面通过一个实例来说明Pandas Melt的具体使用方法。假设我们有如下的Wide格式的数据：

import pandas as pd

data = {'id': ['01', '02', '03'],
        'Name': ['John', 'Lucy', 'David'],
        'Age': [25, 30, 35],
        'Gender': ['Male', 'Female', 'Male']}
df = pd.DataFrame(data)
print(df)

输出结果为：

   id   Name  Age  Gender
0  01   John   25    Male
1  02   Lucy   30  Female
2  03  David   35    Male

我们可以使用Melt函数将其重塑为Tidy格式的数据，代码如下：

tidy_df = pd.melt(df, id_vars=['id', 'Name'], value_vars=['Age', 'Gender'], 
                  var_name='Variable', value_name='Value')
print(tidy_df)

输出结果为：

   id   Name Variable    Value
0  01   John      Age       25
1  02   Lucy      Age       30
2  03  David      Age       35
3  01   John   Gender     Male
4  02   Lucy   Gender   Female
5  03  David   Gender     Male

在代码中，我们指定id_vars为['id', 'Name']，表示保留id和Name列作为标识符。value_vars为['Age', 'Gender']，表示将Age和Gender列进行重塑。var_name为'Variable'，表示将重塑后的变量列列名定为Variable。value_name为'Value'，表示将重塑后的值列列名定为Value。

在重塑后的Tidy格式数据中，每一行都代表一个观测，每一列代表一个变量，每个单元格中存储着该观测值对应变量的值。这种格式的数据更加容易进行统计分析和可视化。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：使用Pandas Melt将Wide DataFrame重塑为带有标识符的Tidy - Python技术站