Pandas最常用的7个统计函数详解

yizhihongxing

在数据分析的过程中,使用统计函数有助于我们理解和分析数据。Pandas作为一个最热门的Python数据处理库,提供了许多有用的统计函数,用于对数据进行汇总、分组、聚合和计算。

下面的表格是一些常见的统计函数:

函数名称 函数功能说明
describe() 生成数据集的描述性统计信息,包括计数、平均值、标准差、最小值、最大值和四分位数等。
mean() 计算序列或数据框的平均值。
median() 计算序列或数据框的中位数。
mode() 计算序列或数据框的众数。
var() 计算序列或数据框的方差。
std() 计算序列或数据框的标准差。
min() 计算序列或数据框的最小值。
max() 计算序列或数据框的最大值。
sum() 计算序列或数据框的总和。
count() 计算序列或数据框中的非缺失值数量。
quantile() 计算序列或数据框的分位数。
cumsum() 计算序列或数据框的累计和。
cumprod() 计算序列或数据框的累计积。
cummax() 计算序列或数据框的累计最大值。
cummin() 计算序列或数据框的累计最小值。
corr() 计算序列或数据框之间的相关系数矩阵。
cov() 计算序列或数据框之间的协方差矩阵。
skew() 计算序列或数据框的偏度。
kurtosis() 计算序列或数据框的峰度。
value_counts() 计算序列或数据框中每个值的出现次数。

接下来将为你介绍Pandas最常用的7个统计函数。

mean():计算序列或数据框的平均值

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.mean()) # 输出: 3.0

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.mean()) # 输出: A    2.0  B    5.0  dtype: float64

sum():计算序列或数据框的总和


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.sum()) # 输出: 15

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.sum()) # 输出: A    6  B    15  dtype: int64

count():计算序列或数据框中的非缺失值数量


import pandas as pd
import numpy as np

data = pd.Series([1, 2, np.nan, 4, 5])
print(data.count()) # 输出: 4

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, np.nan, 6]})
print(dataframe.count()) # 输出: A    3  B    2  dtype: int64

max():计算序列或数据框的最大值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.max()) # 输出: 5

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.max()) # 输出: A    3  B    6  dtype: int64

min():计算序列或数据框的最小值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.min()) # 输出: 1

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.min()) # 输出: A    1  B    4  dtype: int64

std():计算序列或数据框的标准差


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.std()) # 输出: 1.5811388300841898

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.std()) # 输出: A    1.0  B    1.0  dtype: float64

var():计算序列或数据框的方差

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.var()) #2.5

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas最常用的7个统计函数详解 - Python技术站

(1)
上一篇 2023年3月5日
下一篇 2023年3月6日

相关文章

  • Pandas处理缺失值的4种方法

    什么是缺失值 在实际数据分析过程中,经常会遇到一些数据缺失的情况,这种情况可能是由于以下原因导致的: 数据收集的不完整:有些数据可能由于各种原因无法获取或者未收集到。 数据输入错误:数据收集者可能会犯一些输入错误,例如遗漏一些数据或者输入了一些不正确的数据。 数据处理错误:数据处理过程中可能会犯一些错误,例如计算错误或者数据合并错误等。 数据保存错误:数据保…

    Pandas 2023年3月5日
    00
  • 详解Padans Timedelta时间差的使用方法

    在 Pandas 中,时间差指的是两个日期时间之间的差值。Pandas 提供了 Timedelta 类型来表示时间差。Timedelta 可以支持多种时间单位,例如天、小时、分钟、秒等。 Timedelta 对象可以通过减法来获得两个日期时间之间的差值,例如: import pandas as pd # 创建两个 Pandas Series 对象 s1 = …

    Pandas 2023年3月6日
    00
  • Pandas DataFrame结构对象常用的属性和方法

    Pandas DataFrame是一个二维表结构,包含了行和列的标签,每一列可以有不同的数据类型。 以下是Pandas DataFrame结构对象常用的属性和方法: DataFrame结构对象属性 DataFrame对象常用的属性有: shape:返回DataFrame的形状(行数、列数) index:返回DataFrame的行索引 columns:返回Da…

    Pandas 2023年3月4日
    00
  • Pandas描述性统计常用的方法

    什么是描述性统计? 描述统计学(descriptive statistics)是一门统计学领域的学科,是一种利用某些指标对数据进行概括和描述的一种统计方法。 描述性统计通过统计数据的集中趋势、离散程度、分布形态、相关性等特征来描述数据的基本情况和规律,常用于数据分析、数据挖掘、商业分析等领域。常见的描述性统计指标包括均值、中位数、标准差、方差、极差、四分位数…

    Pandas 2023年3月4日
    00
  • Pandas最常用的4种窗口函数

    Pandas窗口函数(Window Function)是一种基于滑动窗口的函数,用于在序列或数据框上执行基于窗口的操作,如滚动平均、滚动求和、滚动方差等。 与一般的聚合函数不同,窗口函数可以计算滑动窗口内的值,并生成与原序列或数据框相同长度的序列或数据框。 接下来将为你介绍Pandas中常用的4种窗口函数。 滚动平均值 滚动平均值是指在滑动窗口内计算平均值。…

    Pandas 2023年3月5日
    00
  • 详解Pandas concat连接操作的5种使用方法

    Pandas中的concat函数可以将多个数据框(DataFrame)按照一定的方式拼接在一起,这个函数的使用非常广泛,可以用来进行数据的横向和纵向拼接操作。本文将详细介绍concat函数的用法及注意事项。 concat函数基本用法 concat函数的基本用法如下: pd.concat(objs, axis=0, join=’outer’, ignore_i…

    Pandas 2023年3月6日
    00
  • Pandas reindex重置索引的4种方法

    Pandas的reindex()方法可以用来重新排列DataFrame或Series的索引,并返回一个具有新索引的新对象。reindex()方法有以下几种常用的用法: Series.reindex() Series.reindex()方法用于Series类型,可以根据给定的索引值重新排列Series的索引。当索引值在原Series中不存在时,对应的值会被填充…

    Pandas 2023年3月4日
    00
  • Pandas Series结构对象的创建与访问方法

    Pandas Series结构是什么? Pandas Series是一种类似于一维数组的数据结构,可以存储任意类型的数据,包括整数、浮点数、字符串、Python对象等。Series有两个主要的部分:索引和值,其中索引用于标识每个值的位置,可以是整数、字符串或其他数据类型。Series中的每个值都与一个索引值对应,因此可以通过索引来访问数据。Series的特点…

    Pandas 2023年3月4日
    00
合作推广
合作推广
分享本页
返回顶部