Pandas最常用的7个统计函数详解

在数据分析的过程中,使用统计函数有助于我们理解和分析数据。Pandas作为一个最热门的Python数据处理库,提供了许多有用的统计函数,用于对数据进行汇总、分组、聚合和计算。

下面的表格是一些常见的统计函数:

函数名称 函数功能说明
describe() 生成数据集的描述性统计信息,包括计数、平均值、标准差、最小值、最大值和四分位数等。
mean() 计算序列或数据框的平均值。
median() 计算序列或数据框的中位数。
mode() 计算序列或数据框的众数。
var() 计算序列或数据框的方差。
std() 计算序列或数据框的标准差。
min() 计算序列或数据框的最小值。
max() 计算序列或数据框的最大值。
sum() 计算序列或数据框的总和。
count() 计算序列或数据框中的非缺失值数量。
quantile() 计算序列或数据框的分位数。
cumsum() 计算序列或数据框的累计和。
cumprod() 计算序列或数据框的累计积。
cummax() 计算序列或数据框的累计最大值。
cummin() 计算序列或数据框的累计最小值。
corr() 计算序列或数据框之间的相关系数矩阵。
cov() 计算序列或数据框之间的协方差矩阵。
skew() 计算序列或数据框的偏度。
kurtosis() 计算序列或数据框的峰度。
value_counts() 计算序列或数据框中每个值的出现次数。

接下来将为你介绍Pandas最常用的7个统计函数。

mean():计算序列或数据框的平均值

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.mean()) # 输出: 3.0

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.mean()) # 输出: A    2.0  B    5.0  dtype: float64

sum():计算序列或数据框的总和


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.sum()) # 输出: 15

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.sum()) # 输出: A    6  B    15  dtype: int64

count():计算序列或数据框中的非缺失值数量


import pandas as pd
import numpy as np

data = pd.Series([1, 2, np.nan, 4, 5])
print(data.count()) # 输出: 4

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, np.nan, 6]})
print(dataframe.count()) # 输出: A    3  B    2  dtype: int64

max():计算序列或数据框的最大值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.max()) # 输出: 5

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.max()) # 输出: A    3  B    6  dtype: int64

min():计算序列或数据框的最小值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.min()) # 输出: 1

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.min()) # 输出: A    1  B    4  dtype: int64

std():计算序列或数据框的标准差


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.std()) # 输出: 1.5811388300841898

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.std()) # 输出: A    1.0  B    1.0  dtype: float64

var():计算序列或数据框的方差

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.var()) #2.5

此文章发布者为:Python技术站作者[metahuber],转载请注明出处:http://pythonjishu.com/pandas-7-statistical-function/

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年 3月 5日 下午9:08
下一篇 2023年 3月 6日 上午10:26

相关推荐

  • Pandas最常用的7种字符串处理方法

    Pandas是一个强大的数据处理工具,除了能处理数值和时间序列等数据类型外,还能够方便地处理字符串数据。 常用的字符串处理函数如下表所示: 函数名称 函数功能说明 lower() 将的字符串转换为小写。 upper() 将的字符串转换为大写。 len() 得出字符串的长度。 strip() 去除字符串两边的空格(包含换行符)。 split() 用指定的分割符…

    Pandas 2023年 3月 5日
    00
  • 详解Pandas随机抽样(sample)使用方法

    Pandas中的sample()函数可以从数据集中随机抽取行或列,可以用于数据集的随机采样、创建数据集的随机子集、模型评估等场景。下面我们来详细介绍一下sample()函数的用法。 首先,sample()函数有以下几个参数: n: 抽取的行数或列数。 frac: 抽取的行数或列数相对于数据集的比例,范围在0到1之间。 replace: 是否允许重复抽取,默认…

    Pandas 2023年 3月 6日
    00
  • 详解Pandas分层索引的创建、使用方法

    Pandas分层索引是一种在DataFrame和Series中使用的索引技术,能够处理多维数据,使得对于数据的分组和展示更加方便和灵活。在分层索引中,每层索引都是针对数据集中的某个特定维度的,这些层次索引可以根据需要自由组合,形成多级索引,从而满足数据分析任务的细粒度需求。 Pandas分层索引的创建方式 1.通过列表创建分层索引: import panda…

    Pandas 2023年 3月 7日
    00
  • Pandas reindex重置索引的4种方法

    Pandas的reindex()方法可以用来重新排列DataFrame或Series的索引,并返回一个具有新索引的新对象。reindex()方法有以下几种常用的用法: Series.reindex() Series.reindex()方法用于Series类型,可以根据给定的索引值重新排列Series的索引。当索引值在原Series中不存在时,对应的值会被填充…

    Pandas 2023年 3月 4日
    00
  • Pandas 最常用的6种遍历方法

    遍历是众多编程语言中必备的一种操作,比如 Python 语言通过 for 循环来遍历列表结构。而在 Pandas 中同样也是使用 for 循环进行遍历,通过for遍历后,Series 可直接获取相应的 value,而 DataFrame 则会获取列标签。 以下是最常用的几种遍历方法: for 循环遍历每一行/列 使用 for 循环可以遍历 DataFrame…

    Pandas 2023年 3月 4日
    00
  • 详解Padans Timedelta时间差的使用方法

    在 Pandas 中,时间差指的是两个日期时间之间的差值。Pandas 提供了 Timedelta 类型来表示时间差。Timedelta 可以支持多种时间单位,例如天、小时、分钟、秒等。 Timedelta 对象可以通过减法来获得两个日期时间之间的差值,例如: import pandas as pd # 创建两个 Pandas Series 对象 s1 = …

    Pandas 2023年 3月 6日
    00
  • Pandas设置索引、重置索引方法详解

    在pandas中,索引可以看做是数据的“标签”,用于标识数据表中每个数据的位置。pandas提供了设置索引和重置索引的功能,以方便用户对数据进行排序、筛选等操作。 首先,通过以下代码创建一个示例DataFrame: import pandas as pd data = {'name': ['Alice', '…

    Pandas 2023年 3月 7日
    00
  • Pandas 最常用的两种排序方法

    Pandas提供了两种排序方式:按标签排序和按数值排序。 按标签排序 按标签排序使用 .sort_index() 方法,可以按照索引的标签进行排序,默认为升序排列。例如: import pandas as pd # 创建一个示例DataFrame df = pd.DataFrame({'col1': [3, 1, 2], 'co…

    Pandas 2023年 3月 5日
    00
  • Pandas是什么?Pandas的特点与优势

    Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。目前,Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。 Pandas 最初由 Wes M…

    2023年 3月 4日
    00
  • Pandas最常用的设置数据显示格式的11种方法

    在用 Pandas 做数据分析的过程中,为了更好地呈现和展示数据,使数据更易读、易于理解,从而提高数据分析的效率和准确性,我们经常需要设置数据的显示格式。 通过设置数据显示格式,可以调整数据的小数位数、数值的对齐方式、列宽等参数,使得数据在表格中更美观、整洁,同时也更符合数据的实际含义。此外,设置数据显示格式还可以对数据进行格式化输出,如将数值格式化为货币、…

    Pandas 2023年 3月 5日
    00