Pandas描述性统计常用的方法

什么是描述性统计?

描述统计学(descriptive statistics)是一门统计学领域的学科,是一种利用某些指标对数据进行概括和描述的一种统计方法。

描述性统计通过统计数据的集中趋势、离散程度、分布形态、相关性等特征来描述数据的基本情况和规律,常用于数据分析、数据挖掘、商业分析等领域。常见的描述性统计指标包括均值、中位数、标准差、方差、极差、四分位数等。

Pandas提供了丰富的描述性统计方法,可以轻松地计算数据集的各种统计信息。下列表格对 Pandas 常用的统计学函数做了简单的总结:

函数名称 描述说明
count() 统计某个非空值的数量。
sum() 求和
mean() 求均值
median() 求中位数
mode() 求众数
std() 求标准差
min() 求最小值
max() 求最大值
abs() 求绝对值
prod() 求所有数值的乘积。
cumsum() 计算累计和,axis=0,按照行累加;axis=1,按照列累加。
cumprod() 计算累计积,axis=0,按照行累积;axis=1,按照列累积。
corr() 计算数列或变量之间的相关系数,取值-1到1,值越大表示关联性越强。

这些方法可以应用于Series和DataFrame对象,并且可以根据需要指定轴向、跳过缺失值等参数进行计算。

接下来我们将详细说明Pandas常用的描述性统计方法。

Pahndas描述性统计常用的方法

mean():计算平均值

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的平均值
print(df.mean())

# 计算每行的平均值
print(df.mean(axis=1))

输出结果:

A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64

median():计算中位数

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的中位数
print(df.median())

# 计算每行的中位数
print(df.median(axis=1))

输出结果:

A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64

std():计算标准差

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的标准差
print(df.std())

# 计算每行的标准差
print(df.std(axis=1))

输出结果:

A    1.0
B    1.0
C    1.0
dtype: float64
0    2.160247
1    2.160247
2    2.160247
dtype: float64

describe():给出数据的基本描述统计信息

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 给出每列的基本描述统计信息
print(df.describe())

# 给出每行的基本描述统计信息
print(df.describe(include='all'))

输出结果:

         A    B    C
count  3.0  3.0  3.0
mean   2.0  5.0  8.0
std    1.0  1.0  1.0
min    1.0  4.0  7.0
25%    1.5  4.5  7.5
50%    2.0  5.0  8.0
75%    2.5  5.5  8.5
max    3.0  6.0  9.0
         A    B    C
count  3.

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas描述性统计常用的方法 - Python技术站

(0)
上一篇 2023年3月4日
下一篇 2023年3月4日

相关文章

  • 浅析Python打包时包含静态文件处理方法

    一、背景 在Python应用开发过程中,经常需要添加静态文件(如图片、CSS、JavaScript、HTML模板等)到应用程序的某些目录中,以便正常工作。但是,在将Python应用程序打包和发布时,静态文件可能会遇到一些问题。 本文将简要介绍一些Python打包时包含静态文件的处理方法。 二、如何处理静态文件 1、直接将静态文件打包到项目中 这是最常用的做法…

    python 2023年5月14日
    00
  • python Pandas库基础分析之时间序列的处理详解

    Python Pandas库基础分析之时间序列的处理详解 一、时间序列简介 时间序列是一种特殊的数据类型,它是指将数据按时间先后顺序进行排列组织的数据。时间序列一般由三部分组成:时间戳(timestamp)、时间周期(period)和时间间隔(interval)。 在时间序列分析中,我们通常会进行一些预处理和处理操作,例如:对时间戳进行格式化、切片、滚动、偏…

    python 2023年5月14日
    00
  • 理解Python中函数的参数

    下面是关于Python函数参数的详细讲解。 理解Python函数参数 在Python中,函数参数包括位置参数、默认参数、可变参数和关键字参数。了解这些参数的不同使用方式以及调用方式将帮助您更好地使用Python函数。下面将详细说明这些参数。 位置参数 位置参数是函数定义中最常见的参数类型。它们以特定的顺序传递给函数,并用于执行函数中的操作。 下面是一个简单的…

    python 2023年5月14日
    00
  • 对pandas中apply函数的用法详解

    让我来为你详细讲解一下“对pandas中apply函数的用法详解”的完整攻略。 1. 什么是apply函数 在pandas中,apply函数是一种非常实用的函数,它可以对pandas的一个列或行进行操作,通常结合lambda表达式一起使用。apply函数的语法如下所示: DataFrame.apply(func, axis=0, broadcast=Fals…

    python 2023年5月14日
    00
  • 如何使用Python中的Pandas检查一天是否是工作日

    首先,Pandas是Python中的一个非常强大的数据处理库,内置了很多各式各样的函数和方法。而检查一天是否是工作日的方法,就要用到Pandas中的工作日历处理函数。下面是详细的攻略步骤: 步骤1:导入Pandas库和相关模块 import pandas as pd from pandas.tseries.offsets import BDay Pandas…

    python-answer 2023年3月27日
    00
  • 如何在Python-Pandas中把数据框架列转换成索引

    要在Python-Pandas中把数据框架列转换成索引,可以使用 set_index() 函数。该函数可将给定的一列或多列转化成索引,并返回一个新的数据帧。以下是详细步骤: 安装Pandas库: 如果你的环境中没有安装Pandas库,需要先安装。可以使用以下命令: !pip install pandas 导入Pandas库: import pandas as…

    python-answer 2023年3月27日
    00
  • 关于Python 列表的索引取值问题

    关于Python列表的索引取值问题,通常有两种情况:正向索引和反向索引。 正向索引 Python中的列表是有序的,可以使用正向索引从左向右取值。具体来说,正向索引是从0开始,列表中第一个元素的索引为0,第二个元素的索引为1,依次类推。 下面是几个正向索引的例子: 例子1: # 创建一个有三个元素的列表 fruits = ["apple",…

    python 2023年5月14日
    00
  • pandas基础 Series与Dataframe与numpy对二进制文件输入输出

    pandas基础 什么是pandas? pandas是一个开源的python数据分析库,它提供了快速、灵活和富于表现力的数据结构来操作结构化数据。pandas被广泛用于数据处理、数据清洗、数据分析和数据可视化等领域。 pandas中的主要数据结构 pandas中的主要数据结构有两种:Series和DataFrame。 Series Series是一种一维的数…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部