Pandas最常用的7个统计函数详解

在数据分析的过程中,使用统计函数有助于我们理解和分析数据。Pandas作为一个最热门的Python数据处理库,提供了许多有用的统计函数,用于对数据进行汇总、分组、聚合和计算。

下面的表格是一些常见的统计函数:

函数名称 函数功能说明
describe() 生成数据集的描述性统计信息,包括计数、平均值、标准差、最小值、最大值和四分位数等。
mean() 计算序列或数据框的平均值。
median() 计算序列或数据框的中位数。
mode() 计算序列或数据框的众数。
var() 计算序列或数据框的方差。
std() 计算序列或数据框的标准差。
min() 计算序列或数据框的最小值。
max() 计算序列或数据框的最大值。
sum() 计算序列或数据框的总和。
count() 计算序列或数据框中的非缺失值数量。
quantile() 计算序列或数据框的分位数。
cumsum() 计算序列或数据框的累计和。
cumprod() 计算序列或数据框的累计积。
cummax() 计算序列或数据框的累计最大值。
cummin() 计算序列或数据框的累计最小值。
corr() 计算序列或数据框之间的相关系数矩阵。
cov() 计算序列或数据框之间的协方差矩阵。
skew() 计算序列或数据框的偏度。
kurtosis() 计算序列或数据框的峰度。
value_counts() 计算序列或数据框中每个值的出现次数。

接下来将为你介绍Pandas最常用的7个统计函数。

mean():计算序列或数据框的平均值

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.mean()) # 输出: 3.0

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.mean()) # 输出: A    2.0  B    5.0  dtype: float64

sum():计算序列或数据框的总和


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.sum()) # 输出: 15

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.sum()) # 输出: A    6  B    15  dtype: int64

count():计算序列或数据框中的非缺失值数量


import pandas as pd
import numpy as np

data = pd.Series([1, 2, np.nan, 4, 5])
print(data.count()) # 输出: 4

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, np.nan, 6]})
print(dataframe.count()) # 输出: A    3  B    2  dtype: int64

max():计算序列或数据框的最大值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.max()) # 输出: 5

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.max()) # 输出: A    3  B    6  dtype: int64

min():计算序列或数据框的最小值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.min()) # 输出: 1

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.min()) # 输出: A    1  B    4  dtype: int64

std():计算序列或数据框的标准差


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.std()) # 输出: 1.5811388300841898

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.std()) # 输出: A    1.0  B    1.0  dtype: float64

var():计算序列或数据框的方差

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.var()) #2.5

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas最常用的7个统计函数详解 - Python技术站

(1)
上一篇 2023年3月5日
下一篇 2023年3月6日

相关文章

  • Pandas Series结构对象的创建与访问方法

    Pandas Series结构是什么? Pandas Series是一种类似于一维数组的数据结构,可以存储任意类型的数据,包括整数、浮点数、字符串、Python对象等。Series有两个主要的部分:索引和值,其中索引用于标识每个值的位置,可以是整数、字符串或其他数据类型。Series中的每个值都与一个索引值对应,因此可以通过索引来访问数据。Series的特点…

    Pandas 2023年3月4日
    00
  • Pandas描述性统计常用的方法

    什么是描述性统计? 描述统计学(descriptive statistics)是一门统计学领域的学科,是一种利用某些指标对数据进行概括和描述的一种统计方法。 描述性统计通过统计数据的集中趋势、离散程度、分布形态、相关性等特征来描述数据的基本情况和规律,常用于数据分析、数据挖掘、商业分析等领域。常见的描述性统计指标包括均值、中位数、标准差、方差、极差、四分位数…

    Pandas 2023年3月4日
    00
  • Pandas分类对象(Categorical)详解

    Pandas分类对象是什么? 在 Pandas 中,分类对象(Categorical)是一种特殊的数据类型,它表示有限且固定数量的可能值的数据。分类对象主要用于存储和处理重复值的数据,并且在某些情况下可以提高性能和减少内存使用。 Pandas 的分类对象具有以下特点: 类别是有限的,且固定不变的。例如,在一个具有“男”、“女”两种可能性的列中,类别是固定的。…

    Pandas 2023年3月6日
    00
  • 详解Pandas分层索引的创建、使用方法

    Pandas分层索引是一种在DataFrame和Series中使用的索引技术,能够处理多维数据,使得对于数据的分组和展示更加方便和灵活。在分层索引中,每层索引都是针对数据集中的某个特定维度的,这些层次索引可以根据需要自由组合,形成多级索引,从而满足数据分析任务的细粒度需求。 Pandas分层索引的创建方式 1.通过列表创建分层索引: import panda…

    Pandas 2023年3月7日
    00
  • Pandas是什么?Pandas的特点与优势

    Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。目前,Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。 Pandas 最初由 Wes M…

    2023年3月4日
    00
  • Pandas 最常用的6种遍历方法

    遍历是众多编程语言中必备的一种操作,比如 Python 语言通过 for 循环来遍历列表结构。而在 Pandas 中同样也是使用 for 循环进行遍历,通过for遍历后,Series 可直接获取相应的 value,而 DataFrame 则会获取列标签。 以下是最常用的几种遍历方法: for 循环遍历每一行/列 使用 for 循环可以遍历 DataFrame…

    Pandas 2023年3月4日
    00
  • Pandas最常用的5种聚合函数

    Pandas聚合函数(Aggregation Function)是一种数据处理函数,用于对数据进行汇总、统计和分析。在数据分析中,常常需要对数据进行聚合计算,如计算平均值、总和、标准差、方差等。Pandas提供了多种聚合函数,可以方便地对数据进行统计和分析。 Pandas聚合函数可以应用于Series和DataFrame对象,可以对整个序列或数据框进行聚合,…

    Pandas 2023年3月5日
    00
  • 详解Pandas中的时间序列

    Pandas是一个强大的数据分析工具,它的时间序列处理功能也非常强大。Pandas提供了一些专门用于处理时间序列的数据类型和函数,能够方便地对时间序列数据进行处理和分析。 下面将详细介绍Pandas时间序列的相关知识。 DatetimeIndex 在Pandas中,DatetimeIndex是一个表示时间序列的数据类型,它能够方便地对时间序列进行索引和切片操…

    Pandas 2023年3月6日
    10
合作推广
合作推广
分享本页
返回顶部