详解pandas.groupby()(按列分组)函数使用方法

yizhihongxing

pandas.groupby()的作用

pandas.groupby()用于按照一定的条件(实际上就是指定一个或多个列)对数据集进行分组,分组后可以对各个分组做一些统计分析,如求和、平均值等。

pandas.groupby()的使用方法

创建数据集

在进行分组操作之前,首先需要创建一个数据集。

例如,创建一个记录销售额的数据集:

import pandas as pd

data = {
    '购买次数':[1,2,3,1,2,3],
    '商品':['A','B','C','A','B','C'],
    '销售额':[200,250,380,350,420,480]
}

df = pd.DataFrame(data)

print(df)

输出结果:

   购买次数 商品  销售额
0      1  A  200
1      2  B  250
2      3  C  380
3      1  A  350
4      2  B  420
5      3  C  480

按照商品进行分组

根据商品对数据集进行分组操作,使用groupby()函数,传递的参数为一个或多个列名,表示对这些列进行分组。

例如,按照商品名称对数据集进行分组:

grouped = df.groupby('商品')

print(grouped)

输出结果:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd3e156be50>

对分组后的数据进行统计分析

分组后,我们可以对每一个分组进行一些统计分析,如求和、平均值等。常用的函数有sum()、mean()、count()等。

例如,对商品为A的销售额进行求和操作:

grouped_sum = grouped['销售额'].sum()

print(grouped_sum)

输出结果:

商品
A     550
B     670
C    860
Name: 销售额, dtype: int64

将分组后的数据展示在一起

有时候将分组后的数据展示在一起,可以更加清晰地显示数据分析结果。

例如,将所有分组的销售额和显示在一张表格中:

grouped_df = grouped_sum.reset_index()
print(grouped_df)

输出结果:

  商品  销售额
0  A    550
1  B    670
2  C    860

接下来我们举两个实例:

分组统计学生成绩

import pandas as pd

data = {
    '姓名':['张三','李四','王五','赵六','小明','小红','小刚','小亮'],
    '性别':['男','男','男','男','男','女','女','女'],
    '科目':['语文','语文','语文','语文','数学','数学','数学','数学'],
    '成绩':[80,85,90,67,78,98,80,76]
}

df = pd.DataFrame(data)

print(df)

输出结果:

   姓名 性别  科目  成绩
0  张三  男  语文  80
1  李四  男  语文  85
2  王五  男  语文  90
3  赵六  男  语文  67
4  小明  男  数学  78
5  小红  女  数学  98
6  小刚  女  数学  80
7  小亮  女  数学  76
# 按照科目对数据集进行分组操作
grouped = df.groupby('科目')

# 统计每个分组的平均分
grouped_mean = grouped['成绩'].mean()

print(grouped_mean)

输出结果:

科目
数学    83.0
语文    80.5
Name: 成绩, dtype: float64

分组计算销售额

import pandas as pd

data = {
    '购买次数':[1,2,3,1,2,3],
    '商品':['A','B','C','A','B','C'],
    '销售额':[200,250,380,350,420,480]
}

df = pd.DataFrame(data)

print(df)

输出结果:

   购买次数 商品  销售额
0      1  A  200
1      2  B  250
2      3  C  380
3      1  A  350
4      2  B  420
5      3  C  480
# 按照商品名称对数据进行分组操作
grouped = df.groupby('商品')

# 统计各商品的总销售额
grouped_sum = grouped['销售额'].sum()

# 将分组后的结果保存为CSV文件
grouped_sum.to_csv('sales.csv')

print(grouped_sum)

输出结果:

商品
A     550
B     670
C    860
Name: 销售额, dtype: int64

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解pandas.groupby()(按列分组)函数使用方法 - Python技术站

(1)
上一篇 2023年3月22日
下一篇 2023年3月22日

相关文章

  • 详解pandas.DataFrame.to_excel()(将数据框写入Excel文件)函数使用方法

    pandas.DataFrame.to_excel()的作用和使用方法 pandas.DataFrame.to_excel()是pandas库中的一个函数,用于将DataFrame数据写入Excel文件中。该函数需要至少指定一个参数,即Excel文件的文件名和路径。同时,还可以根据需要配置一些参数,如Sheet名称、数据存储位置、列的排序方式、数据格式等。下…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.boxplot()(绘制数据框箱线图)函数使用方法

    pandas.DataFrame.boxplot()是Pandas库中的一个函数,它可以将数据框的数据进行箱线图的可视化展示,从而帮助我们更好地理解数据的分布情况及异常值情况。本文将对该函数的作用、使用方法进行详细讲解,并提供两个实例说明。 函数作用 函数的作用是将数据框的每个列进行箱线图的可视化展示,我们可以通过观察图表来判断数据分布的偏态及异常值情况。箱…

    2023年3月22日
    00
  • 详解pandas.fillna()(填充缺失值)函数使用方法

    pandas.fillna() 用于对缺失值进行填充,可以将缺失值替换为指定的数值或使用指定的填充规则进行填充。该函数的语法格式如下: DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None) 其中各参数的含义如下: value…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.isnull()(检测缺失值)函数使用方法

    pandas.DataFrame.isnull() 函数用于检查 DataFrame 中的数据是否为空(NaN)值,返回一个布尔型(True或False)的 DataFrame,其中True表示该位置为空,False表示该位置不为空。 使用方法 首先,导入 pandas 包并创建一个 DataFrame 示例: import pandas as pd dat…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.fillna()(填充缺失值)函数使用方法

    作用及使用方法 pandas.DataFrame.fillna()函数的作用是将数据帧(DataFrame)中的缺失值(NaN值)用指定的值或方法进行填充。具体使用方法如下: DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=Non…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.Series.apply()(应用函数到序列)函数使用方法

    pandas.Series.apply()是一个数据帧操作函数,该函数可以应用于Series中每一个元素。它的目的是将一个函数作用于Series的每一个元素上,并返回一个新的Series。 使用方法: pandas.Series.apply(func, convert_dtype=True, args=(), **kwds) 参数说明: func: 一个可以…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.read_csv()(读取CSV文件)函数使用方法

    pandas.read_csv()是pandas库中一个用于读取csv文件的函数,其作用是将csv文件中的数据读入到一个pandas的DataFrame数据结构中,便于后续的数据处理和分析。 pandas.read_csv()函数的常用参数有以下几个: filepath_or_buffer:csv文件路径或者url地址,可以是本地文件路径,也可以是在线的ur…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.notnull()(检测非缺失值)函数使用方法

    pandas.DataFrame.notnull()方法是pandas中DataFrame对象的一个函数,用于检查DataFrame对象中的每个元素是否为空(NaN),并将每个空值替换为False,非空值替换为True返回。 使用方法: DataFrame.notnull(self) 返回值: 返回一个布尔值的DataFrame对象,非空值替换为True,空…

    Pandas函数大全 2023年3月22日
    00
合作推广
合作推广
分享本页
返回顶部