Pandas描述性统计常用的方法

什么是描述性统计?

描述统计学(descriptive statistics)是一门统计学领域的学科,是一种利用某些指标对数据进行概括和描述的一种统计方法。

描述性统计通过统计数据的集中趋势、离散程度、分布形态、相关性等特征来描述数据的基本情况和规律,常用于数据分析、数据挖掘、商业分析等领域。常见的描述性统计指标包括均值、中位数、标准差、方差、极差、四分位数等。

Pandas提供了丰富的描述性统计方法,可以轻松地计算数据集的各种统计信息。下列表格对 Pandas 常用的统计学函数做了简单的总结:

函数名称 描述说明
count() 统计某个非空值的数量。
sum() 求和
mean() 求均值
median() 求中位数
mode() 求众数
std() 求标准差
min() 求最小值
max() 求最大值
abs() 求绝对值
prod() 求所有数值的乘积。
cumsum() 计算累计和,axis=0,按照行累加;axis=1,按照列累加。
cumprod() 计算累计积,axis=0,按照行累积;axis=1,按照列累积。
corr() 计算数列或变量之间的相关系数,取值-1到1,值越大表示关联性越强。

这些方法可以应用于Series和DataFrame对象,并且可以根据需要指定轴向、跳过缺失值等参数进行计算。

接下来我们将详细说明Pandas常用的描述性统计方法。

Pahndas描述性统计常用的方法

mean():计算平均值

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的平均值
print(df.mean())

# 计算每行的平均值
print(df.mean(axis=1))

输出结果:

A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64

median():计算中位数

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的中位数
print(df.median())

# 计算每行的中位数
print(df.median(axis=1))

输出结果:

A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64

std():计算标准差

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的标准差
print(df.std())

# 计算每行的标准差
print(df.std(axis=1))

输出结果:

A    1.0
B    1.0
C    1.0
dtype: float64
0    2.160247
1    2.160247
2    2.160247
dtype: float64

describe():给出数据的基本描述统计信息

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 给出每列的基本描述统计信息
print(df.describe())

# 给出每行的基本描述统计信息
print(df.describe(include='all'))

输出结果:

         A    B    C
count  3.0  3.0  3.0
mean   2.0  5.0  8.0
std    1.0  1.0  1.0
min    1.0  4.0  7.0
25%    1.5  4.5  7.5
50%    2.0  5.0  8.0
75%    2.5  5.5  8.5
max    3.0  6.0  9.0
         A    B    C
count  3.

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas描述性统计常用的方法 - Python技术站

(0)
上一篇 2023年3月4日
下一篇 2023年3月4日

相关文章

  • 在Python Pandas中从时间戳中获取秒数

    获取时间戳中的秒数可以使用Python中的Pandas模块。下面将详细讲解如何在Pandas中获取时间戳的秒数。 步骤1:导入模块 首先,需要导入pandas模块。在Python中通常使用以下命令导入: import pandas as pd 步骤2:创建时间戳 接下来,需要创建一个时间戳,可以使用Pandas中的“Timestamp”方法,例如: time…

    python-answer 2023年3月27日
    00
  • Pandas处理缺失值的4种方法

    什么是缺失值 在实际数据分析过程中,经常会遇到一些数据缺失的情况,这种情况可能是由于以下原因导致的: 数据收集的不完整:有些数据可能由于各种原因无法获取或者未收集到。 数据输入错误:数据收集者可能会犯一些输入错误,例如遗漏一些数据或者输入了一些不正确的数据。 数据处理错误:数据处理过程中可能会犯一些错误,例如计算错误或者数据合并错误等。 数据保存错误:数据保…

    Pandas 2023年3月5日
    00
  • 如何修复:module ‘pandas’ has no attribute ‘dataframe’

    这个问题一般出现在使用pandas库的时候,尝试调用pandas的dataframe属性时出现的。出现这个问题的原因可能有多种,但是最常见的原因是简单的语法错误,比如大小写不匹配,导致代码无法正常运行。 下面是一些可能的解决方案: 1.检查导入的pandas库的版本,确保它是最新的。你可以使用以下命令来更新pandas: pip install –upgr…

    python-answer 2023年3月27日
    00
  • 在pandas DataFrame中使用regex将一个字符串分割成若干列

    在pandas中,使用正则表达式可以很方便地将一个字符串分割成若干列,具体步骤如下: 读取需要处理的数据:可以使用pd.read_csv()方法读取数据,如果数据是从其他地方获取的,需要将数据转换成pandas DataFrame格式。 import pandas as pd df = pd.read_csv(‘data.csv’) 定义正则表达式:定义一个…

    python-answer 2023年3月27日
    00
  • 利用Pandas实现对数据进行移动计算

    当需要对数据进行滚动/移动计算时,使用Pandas可以方便地进行操作。下面是实现移动计算的完整攻略,包括滚动计算和移动计算。 1. 滚动计算 滚动计算是针对某个窗口中的数据进行计算的方法,这里我们以计算滑动窗口为3的均值为例。假设有如下数据: 序号 数值 1 5 2 8 3 2 4 9 5 3 6 7 7 1 使用Pandas实现如下: import pan…

    python 2023年5月14日
    00
  • Pandas – 移除列名中的特殊字符

    在 Pandas 中,可以使用 str 方法对字符串进行操作。对于列名中包含的特殊字符,可以使用 str.replace() 方法进行替换。 举个例子,在下面的示例数据中,列名中包含了圆括号和空格: import pandas as pd data = {"column 1": [1, 2, 3], "column (2)&qu…

    python-answer 2023年3月27日
    00
  • 如何在Python中把Sklearn数据集转换为Pandas数据帧

    要在Python中将sklearn数据集转换为pandas数据帧,需要先导入所需的库和数据集,然后使用pandas的DataFrame方法将数据转换为数据帧格式。以下是详细的步骤: 步骤1:导入所需的库 首先要导入所需的库,包括pandas和所需特定的sklearn数据集。例如,如果你要导入iris数据集,使用以下代码: import pandas as p…

    python-answer 2023年3月27日
    00
  • 根据数值对Pandas数据框架的行或列进行排序

    要按照数据框架中的行或列进行排序,Pandas提供了sort_values()方法。排序结果会产生一个新的数据框架。 具体操作过程如下: 选择需要排序的列或行 python df.sort_values(by=列名(或行索引)) 如果需要按多个列排序,则使用列表包裹多个列名。 python df.sort_values(by=[列1,列2,列3]) 选择排序…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部