pandas使用之宽表变窄表的实现

宽表和窄表在数据处理中是不可避免的概念。在pandas中，可以使用melt方法实现宽表变窄表的转换。接下来，我们将详细讲解如何使用pandas进行宽表变窄表的实现。

一、什么是宽表和窄表

在pandas中，宽表指的是一行中包含许多列，每一列都是一个变量；而窄表指的是多列构成的表，其中一列是变量名，另外几列是对应的值。

举个例子，下面是一组宽表的数据：

姓名	数学成绩	语文成绩	英语成绩
小王	90	85	88
小李	78	92	79
小张	85	86	80

宽表中的每个学科成绩都是一列数据，这样的表格不方便进行分析。以下是相应的窄表的数据：

姓名	科目名称	成绩
小王	数学成绩	90
小王	语文成绩	85
小王	英语成绩	88
小李	数学成绩	78
小李	语文成绩	92
小李	英语成绩	79
小张	数学成绩	85
小张	语文成绩	86
小张	英语成绩	80

在这个窄表中，每一行都是一门科目的成绩，这种排列方式更适合进行数据分析。

二、宽表变窄表的实现方法

在pandas中，我们可以使用melt方法实现宽表变窄表的转换。melt方法可以将一组宽表数据转换成一组窄表数据，并按照指定的列标签进行重构。

melt方法中的主要参数为id_vars、value_vars、var_name和value_name。

id_vars：需要保留在输出表中的列，例如上述的姓名列。
value_vars：需要转换为变量的列，例如上述的数学成绩、语文成绩和英语成绩列。
var_name：代表生成的列名。
value_name：代表生成的值名。

以下是一个示例代码，演示如何使用pandas进行宽表变窄表的转换：

import pandas as pd

df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}})

melted = pd.melt(df, id_vars=['A'], value_vars=['B', 'C'], var_name='variable', value_name='value')

print(melted)

输出结果：

   A variable  value
0  a        B      1
1  b        B      3
2  c        B      5
3  a        C      2
4  b        C      4
5  c        C      6

上述代码将一组宽表数据转换为了一组窄表数据。在这个窄表中，列名为variable的这一列代表了原始数据中的数学成绩和语文成绩两列数据。

以下是另一个示例代码，演示如何处理实际的宽表数据：

import pandas as pd

data = {'姓名': ['小李', '小王', '小张'],
        '数学成绩': [78, 90, 85],
        '语文成绩': [92, 85, 86],
        '英语成绩': [79, 88, 80]}

df = pd.DataFrame(data)

melted = pd.melt(df, id_vars=['姓名'], value_vars=['数学成绩', '语文成绩', '英语成绩'], var_name='科目名称', value_name='成绩')

print(melted)

输出结果：

  姓名  科目名称  成绩
0  小李  数学成绩  78
1  小王  数学成绩  90
2  小张  数学成绩  85
3  小李  语文成绩  92
4  小王  语文成绩  85
5  小张  语文成绩  86
6  小李  英语成绩  79
7  小王  英语成绩  88
8  小张  英语成绩  80

上述代码将一组包含学生成绩的宽表数据转换成了一组窄表数据。窄表数据中包含了每个学生的每一门成绩，更方便进行数据分析。

在实际数据处理中，我们经常使用宽表进行存储和管理数据，而在分析过程中则更适用于窄表。因此，宽表和窄表之间的转换在数据分析中具有重要的意义。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：pandas使用之宽表变窄表的实现 - Python技术站

pandas使用之宽表变窄表的实现

一、什么是宽表和窄表

二、宽表变窄表的实现方法

相关文章