Pandas最常用的7个统计函数详解

在数据分析的过程中,使用统计函数有助于我们理解和分析数据。Pandas作为一个最热门的Python数据处理库,提供了许多有用的统计函数,用于对数据进行汇总、分组、聚合和计算。

下面的表格是一些常见的统计函数:

函数名称 函数功能说明
describe() 生成数据集的描述性统计信息,包括计数、平均值、标准差、最小值、最大值和四分位数等。
mean() 计算序列或数据框的平均值。
median() 计算序列或数据框的中位数。
mode() 计算序列或数据框的众数。
var() 计算序列或数据框的方差。
std() 计算序列或数据框的标准差。
min() 计算序列或数据框的最小值。
max() 计算序列或数据框的最大值。
sum() 计算序列或数据框的总和。
count() 计算序列或数据框中的非缺失值数量。
quantile() 计算序列或数据框的分位数。
cumsum() 计算序列或数据框的累计和。
cumprod() 计算序列或数据框的累计积。
cummax() 计算序列或数据框的累计最大值。
cummin() 计算序列或数据框的累计最小值。
corr() 计算序列或数据框之间的相关系数矩阵。
cov() 计算序列或数据框之间的协方差矩阵。
skew() 计算序列或数据框的偏度。
kurtosis() 计算序列或数据框的峰度。
value_counts() 计算序列或数据框中每个值的出现次数。

接下来将为你介绍Pandas最常用的7个统计函数。

mean():计算序列或数据框的平均值

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.mean()) # 输出: 3.0

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.mean()) # 输出: A    2.0  B    5.0  dtype: float64

sum():计算序列或数据框的总和


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.sum()) # 输出: 15

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.sum()) # 输出: A    6  B    15  dtype: int64

count():计算序列或数据框中的非缺失值数量


import pandas as pd
import numpy as np

data = pd.Series([1, 2, np.nan, 4, 5])
print(data.count()) # 输出: 4

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, np.nan, 6]})
print(dataframe.count()) # 输出: A    3  B    2  dtype: int64

max():计算序列或数据框的最大值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.max()) # 输出: 5

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.max()) # 输出: A    3  B    6  dtype: int64

min():计算序列或数据框的最小值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.min()) # 输出: 1

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.min()) # 输出: A    1  B    4  dtype: int64

std():计算序列或数据框的标准差


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.std()) # 输出: 1.5811388300841898

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.std()) # 输出: A    1.0  B    1.0  dtype: float64

var():计算序列或数据框的方差

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.var()) #2.5

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas最常用的7个统计函数详解 - Python技术站

(1)
上一篇 2023年3月5日
下一篇 2023年3月6日

相关文章

  • 详解Padans Timedelta时间差的使用方法

    在 Pandas 中,时间差指的是两个日期时间之间的差值。Pandas 提供了 Timedelta 类型来表示时间差。Timedelta 可以支持多种时间单位,例如天、小时、分钟、秒等。 Timedelta 对象可以通过减法来获得两个日期时间之间的差值,例如: import pandas as pd # 创建两个 Pandas Series 对象 s1 = …

    Pandas 2023年3月6日
    00
  • 详解Pandas中的时间序列

    Pandas是一个强大的数据分析工具,它的时间序列处理功能也非常强大。Pandas提供了一些专门用于处理时间序列的数据类型和函数,能够方便地对时间序列数据进行处理和分析。 下面将详细介绍Pandas时间序列的相关知识。 DatetimeIndex 在Pandas中,DatetimeIndex是一个表示时间序列的数据类型,它能够方便地对时间序列进行索引和切片操…

    Pandas 2023年3月6日
    10
  • Pandas库的下载和安装

    Python 官方标准发行版并没有自带 Pandas 库,因此需要另行安装。下面介绍在不同操作系统环境下,标准发行版安装 Pandas 的方法。 Windows系统安装 使用 pip 包管理器安装 Pandas,是最简单的一种安装方式。在 CMD 命令提示符界面行执行以下命令:pip install pandas Linux系统安装 对于不同的版本的 Lin…

    Pandas 2023年3月4日
    00
  • Pandas最常用的4种窗口函数

    Pandas窗口函数(Window Function)是一种基于滑动窗口的函数,用于在序列或数据框上执行基于窗口的操作,如滚动平均、滚动求和、滚动方差等。 与一般的聚合函数不同,窗口函数可以计算滑动窗口内的值,并生成与原序列或数据框相同长度的序列或数据框。 接下来将为你介绍Pandas中常用的4种窗口函数。 滚动平均值 滚动平均值是指在滑动窗口内计算平均值。…

    Pandas 2023年3月5日
    00
  • 详解pandas最常用的3种去重方法

    删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重,不仅可以节省内存空间,提高写入性能,还可以提升数据集的精确度,使得数据集不受重复数据的影响。 在 Pandas 中,可以使用 drop_duplicates() 方法来删除 DataFrame 中的重复行。该方法默认删除所有列值都相同的行,也可以指定列进行去重。 下面是一些常用的去重方法: drop…

    Pandas 2023年3月5日
    00
  • 详解Pandas数据重采样(resample)的3种使用方法

    Pandas中的resample方法用于对时间序列数据进行重采样,可以将数据从一个时间频率转换为另一个时间频率,比如将日频率的数据转换为月频率的数据。 resample的语法格式如下: DataFrame.resample(rule, axis=0, closed=None, label=None, convention='start',…

    Pandas 2023年3月6日
    00
  • Pandas分类对象(Categorical)详解

    Pandas分类对象是什么? 在 Pandas 中,分类对象(Categorical)是一种特殊的数据类型,它表示有限且固定数量的可能值的数据。分类对象主要用于存储和处理重复值的数据,并且在某些情况下可以提高性能和减少内存使用。 Pandas 的分类对象具有以下特点: 类别是有限的,且固定不变的。例如,在一个具有“男”、“女”两种可能性的列中,类别是固定的。…

    Pandas 2023年3月6日
    00
  • Pandas DataFrame结构对象常用的属性和方法

    Pandas DataFrame是一个二维表结构,包含了行和列的标签,每一列可以有不同的数据类型。 以下是Pandas DataFrame结构对象常用的属性和方法: DataFrame结构对象属性 DataFrame对象常用的属性有: shape:返回DataFrame的形状(行数、列数) index:返回DataFrame的行索引 columns:返回Da…

    Pandas 2023年3月4日
    00
合作推广
合作推广
分享本页
返回顶部