Pandas描述性统计常用的方法

yizhihongxing

什么是描述性统计?

描述统计学(descriptive statistics)是一门统计学领域的学科,是一种利用某些指标对数据进行概括和描述的一种统计方法。

描述性统计通过统计数据的集中趋势、离散程度、分布形态、相关性等特征来描述数据的基本情况和规律,常用于数据分析、数据挖掘、商业分析等领域。常见的描述性统计指标包括均值、中位数、标准差、方差、极差、四分位数等。

Pandas提供了丰富的描述性统计方法,可以轻松地计算数据集的各种统计信息。下列表格对 Pandas 常用的统计学函数做了简单的总结:

函数名称 描述说明
count() 统计某个非空值的数量。
sum() 求和
mean() 求均值
median() 求中位数
mode() 求众数
std() 求标准差
min() 求最小值
max() 求最大值
abs() 求绝对值
prod() 求所有数值的乘积。
cumsum() 计算累计和,axis=0,按照行累加;axis=1,按照列累加。
cumprod() 计算累计积,axis=0,按照行累积;axis=1,按照列累积。
corr() 计算数列或变量之间的相关系数,取值-1到1,值越大表示关联性越强。

这些方法可以应用于Series和DataFrame对象,并且可以根据需要指定轴向、跳过缺失值等参数进行计算。

接下来我们将详细说明Pandas常用的描述性统计方法。

Pahndas描述性统计常用的方法

mean():计算平均值

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的平均值
print(df.mean())

# 计算每行的平均值
print(df.mean(axis=1))

输出结果:

A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64

median():计算中位数

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的中位数
print(df.median())

# 计算每行的中位数
print(df.median(axis=1))

输出结果:

A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64

std():计算标准差

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的标准差
print(df.std())

# 计算每行的标准差
print(df.std(axis=1))

输出结果:

A    1.0
B    1.0
C    1.0
dtype: float64
0    2.160247
1    2.160247
2    2.160247
dtype: float64

describe():给出数据的基本描述统计信息

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 给出每列的基本描述统计信息
print(df.describe())

# 给出每行的基本描述统计信息
print(df.describe(include='all'))

输出结果:

         A    B    C
count  3.0  3.0  3.0
mean   2.0  5.0  8.0
std    1.0  1.0  1.0
min    1.0  4.0  7.0
25%    1.5  4.5  7.5
50%    2.0  5.0  8.0
75%    2.5  5.5  8.5
max    3.0  6.0  9.0
         A    B    C
count  3.

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas描述性统计常用的方法 - Python技术站

(0)
上一篇 2023年3月4日
下一篇 2023年3月4日

相关文章

  • Python数据分析模块pandas用法详解

    Python数据分析模块pandas用法详解 1. pandas概述 pandas是一个Python的第三方库,主要用于数据分析和数据处理。它提供了高效的数据结构与数据分析工具,被广泛应用于数据挖掘、数据分析、数据预处理等各个领域。pandas的核心数据结构是DataFrame和Series,DataFrame是二维的表格结构,而Series是一维的数组结构…

    python 2023年5月14日
    00
  • 从Pandas数据框架中的行创建一个列表 Set 2

    要从Pandas数据框架中的行创建一个列表,可以使用Pandas的”.iloc”或者”.loc”方法来选择需要使用的行,然后使用列表推导式将每行的数据转化为一个列表。 下面是一个示例代码,假设有一个数据框架df,其中包含5列数字:A、B、C、D和E,我们需要把第2、3、4行数据提取出来,组成一个列表Set 2: import pandas as pd # 创…

    python-answer 2023年3月27日
    00
  • 如何在Pandas中基于日期过滤数据框架行

    在 Pandas 中,基于日期对数据框架进行过滤是一个常见的操作。下面是在 Pandas 中基于日期过滤数据框架行的详细攻略。 步骤 1.导入必要的库 首先,需要导入 Pandas 库和日期时间相关的库。代码如下: import pandas as pd from datetime import datetime 2.读取数据 接下来,需要读取数据并将日期列…

    python-answer 2023年3月27日
    00
  • python Pandas之DataFrame索引及选取数据

    下面为你详细讲解“Python Pandas之DataFrame索引及选取数据”的完整攻略。 DataFrame 索引 在 Pandas 的 DataFrame 中,常用的索引方式有 loc 和 iloc 两种。 loc:通过标签(label)定位。 iloc:通过数字(integer)序列定位。 loc loc 索引方式,最基本的语法格式为: df.loc…

    python 2023年5月14日
    00
  • pandas.DataFrame.drop_duplicates 用法介绍

    pandas.DataFrame.drop_duplicates用法介绍 介绍 pandas.DataFrame.drop_duplicates()方法返回一个DataFrame,其中包含DataFrame重复行的条目。在数据处理中,通常需要删除重复的行,以保证数据的一致性和准确性。 语法 DataFrame.drop_duplicates(subset=N…

    python 2023年5月14日
    00
  • 在Python Pandas中比较时间戳

    在Python Pandas中,可以使用许多方法来比较时间戳。下面介绍其中的一些方法。 1. 比较大小 使用“>”、“<”、“>=”、“<=”、“==”、“!=”等运算符可以比较时间戳的大小。示例代码如下: import pandas as pd d1 = pd.Timestamp(‘2021-01-01 00:00:00’) d2 …

    python-answer 2023年3月27日
    00
  • 浅谈pandas中DataFrame关于显示值省略的解决方法

    下面我将为你详细介绍“浅谈Pandas中DataFrame关于显示值省略的解决方法”的完整攻略。 问题描述 在Pandas中,当DataFrame中的值较多时,会出现部分值被省略的情况,如下所示: import pandas as pd # 创建一个包含26个字母的DataFrame df = pd.DataFrame({‘字母’: list(‘abcdef…

    python 2023年5月14日
    00
  • pandas 对series和dataframe进行排序的实例

    下面是关于“pandas对series和dataframe进行排序的实例”的完整攻略: 1. Series排序实例 1.1 构建Series对象 首先我们需要构建一个Series对象,假设我们有一个学生成绩的列表,其中包括语文、数学和英语三个科目的成绩,我们可以使用pandas的Series对象来保存这些数据: import pandas as pd sco…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部