详解pandas.DataFrame.describe()（计算数据框统计信息）函数使用方法

2023年3月22日下午9:27 • Pandas函数大全

pandas.DataFrame.describe()的作用

pandas.DataFrame.describe()函数用于生成数据集的统计描述。它返回给定数据集的主要统计量，例如平均值、标准差、最小值、最大值和四分位数等。该函数的输出格式是一个数据帧（DataFrame），它显示了每个统计量的值以及数据集中的样本数。

使用方法

pandas.DataFrame.describe()函数可以应用于数据帧（DataFrame）或数据系列（Series）。下面是pandas.DataFrame.describe()函数的语法和参数说明：

语法：

DataFrame.describe(percentiles=None, include=None, exclude=None)

参数：

percentiles：是一个浮点值或数组，可选参数，指定要计算的百分位数。默认为 [0.25，0.5，0.75]，即计算Q1、Q2和Q3（四分位数）。
include：是一个字符串或列表，可选参数，指定要计算的数据类型，例如数值或对象。默认为 None，即计算所有类型的数据。
exclude：是一个字符串或列表，可选参数，用于排除要计算的数据类型。默认为 None。

示例1：对pandas数据帧进行描述性分析

下面的示例代码演示如何使用pandas.DataFrame.describe()函数来生成关于一组数据的统计描述：

import pandas as pd
import numpy as np

# 创建数据帧
data = pd.DataFrame({
   'Name': ['Alex', 'Bob', 'Charlie', 'David', 'Emily'],
   'Age': [25, 28, 21, 32, 24],
   'Salary': [50000, 60000, 55000, 70000, 45000]
})

# 生成数据集的统计描述
desc = data.describe()

# 打印统计摘要
print(desc)

输出结果：

             Age        Salary
count   5.000000      5.000000
mean   26.000000  55000.000000
std     4.049691  10000.000000
min    21.000000  45000.000000
25%    24.000000  50000.000000
50%    25.000000  55000.000000
75%    28.000000  60000.000000
max    32.000000  70000.000000

示例2：指定计算的百分位数和数据类型

下面的代码演示如何使用pandas.DataFrame.describe()函数来计算给定数据集的其他百分位数和只计算数值类型的数据：

import pandas as pd
import numpy as np

# 创建数据帧
data = pd.DataFrame({
   'Name': ['Alex', 'Bob', 'Charlie', 'David', 'Emily'],
   'Age': [25, 28, 21, 32, 24],
   'Salary': [50000, 60000, 55000, 70000, 45000]
})

# 生成数据集的统计描述
desc = data.describe(percentiles=[0.1, 0.2, 0.5, 0.8, 0.9], include=[np.number])

# 打印统计摘要
print(desc)

输出结果：

             Age        Salary
count   5.000000      5.000000
mean   26.000000  55000.000000
std     4.049691  10000.000000
min    21.000000  45000.000000
10%    22.200000  46000.000000
20%    23.200000  47000.000000
50%    25.000000  55000.000000
80%    29.200000  62000.000000
90%    31.000000  67000.000000
max    32.000000  70000.000000

上述两个示例演示了如何使用pandas.DataFrame.describe()函数来计算数据集的统计描述信息，并说明了如何指定计算的百分位数和数据类型。您可以根据需要使用不同的参数来调整函数的行为，并生成符合自己数据集的统计描述。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：详解pandas.DataFrame.describe()（计算数据框统计信息）函数使用方法 - Python技术站