详解pandas.DataFrame.describe()(计算数据框统计信息)函数使用方法

yizhihongxing

pandas.DataFrame.describe()的作用

pandas.DataFrame.describe()函数用于生成数据集的统计描述。它返回给定数据集的主要统计量,例如平均值、标准差、最小值、最大值和四分位数等。该函数的输出格式是一个数据帧(DataFrame),它显示了每个统计量的值以及数据集中的样本数。

使用方法

pandas.DataFrame.describe()函数可以应用于数据帧(DataFrame)或数据系列(Series)。下面是pandas.DataFrame.describe()函数的语法和参数说明:

语法:

DataFrame.describe(percentiles=None, include=None, exclude=None)

参数:

  • percentiles:是一个浮点值或数组,可选参数,指定要计算的百分位数。默认为 [0.25,0.5,0.75],即计算Q1、Q2和Q3(四分位数)。
  • include:是一个字符串或列表,可选参数,指定要计算的数据类型,例如数值或对象。默认为 None,即计算所有类型的数据。
  • exclude:是一个字符串或列表,可选参数,用于排除要计算的数据类型。默认为 None。

示例1:对pandas数据帧进行描述性分析

下面的示例代码演示如何使用pandas.DataFrame.describe()函数来生成关于一组数据的统计描述:

import pandas as pd
import numpy as np

# 创建数据帧
data = pd.DataFrame({
   'Name': ['Alex', 'Bob', 'Charlie', 'David', 'Emily'],
   'Age': [25, 28, 21, 32, 24],
   'Salary': [50000, 60000, 55000, 70000, 45000]
})

# 生成数据集的统计描述
desc = data.describe()

# 打印统计摘要
print(desc)

输出结果:

             Age        Salary
count   5.000000      5.000000
mean   26.000000  55000.000000
std     4.049691  10000.000000
min    21.000000  45000.000000
25%    24.000000  50000.000000
50%    25.000000  55000.000000
75%    28.000000  60000.000000
max    32.000000  70000.000000

示例2:指定计算的百分位数和数据类型

下面的代码演示如何使用pandas.DataFrame.describe()函数来计算给定数据集的其他百分位数和只计算数值类型的数据:

import pandas as pd
import numpy as np

# 创建数据帧
data = pd.DataFrame({
   'Name': ['Alex', 'Bob', 'Charlie', 'David', 'Emily'],
   'Age': [25, 28, 21, 32, 24],
   'Salary': [50000, 60000, 55000, 70000, 45000]
})

# 生成数据集的统计描述
desc = data.describe(percentiles=[0.1, 0.2, 0.5, 0.8, 0.9], include=[np.number])

# 打印统计摘要
print(desc)

输出结果:

             Age        Salary
count   5.000000      5.000000
mean   26.000000  55000.000000
std     4.049691  10000.000000
min    21.000000  45000.000000
10%    22.200000  46000.000000
20%    23.200000  47000.000000
50%    25.000000  55000.000000
80%    29.200000  62000.000000
90%    31.000000  67000.000000
max    32.000000  70000.000000

上述两个示例演示了如何使用pandas.DataFrame.describe()函数来计算数据集的统计描述信息,并说明了如何指定计算的百分位数和数据类型。 您可以根据需要使用不同的参数来调整函数的行为,并生成符合自己数据集的统计描述。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解pandas.DataFrame.describe()(计算数据框统计信息)函数使用方法 - Python技术站

(2)
上一篇 2023年3月22日
下一篇 2023年3月22日

相关文章

  • 详解pandas.cut()(将数值分段)函数使用方法

    pandas.cut()是一个针对Series或DataFrame数据进行分箱处理的函数,其主要作用是将一系列连续型数值分成离散化的分组(或称为分箱),从而便于分类统计或分析等相关工作。 使用方法 参数说明: x:需要进行离散化的数据; bins:指定分组的边界值,可以是单个整数表示基于数据中的最小值和最大值生成等距间隔,也可以是一组分组边界值的列表或数组;…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.concat()(合并数据框)函数使用方法

    Pandas.concat()的作用 Pandas库中的concat()函数主要用于合并/拼接一个或多个数据帧。数据帧可以是行方向(axis=0)或列方向(axis=1)的合并,merge的结果就是一个新的数据帧。合并的数据帧可以从多个源获取,这使得它成为数据处理和分析中非常有用的工具。 Pandas.concat()的使用方法 Pandas.concat(…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.merge()(合并数据框)函数使用方法

    pandas.merge()是一个在pandas库中用于合并、连接和 join 数据集的函数。这个函数能够参考多个键来合并不同数据集的行。具体而言,merge()函数根据列之间的关系来合并 DataFrame 对象。 merge()函数的语法如下所示: pandas.merge(left, right, how='inner', on=N…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.map()(映射数值)函数使用方法

    pandas.map()函数是对Series中的每个元素执行相同的映射/转换操作的方法,其主要作用是对Series中的每个元素进行映射转换,返回一个新的Series对象。 pandas.map()函数的语法如下: DataFrame.map(arg, na_action=None) 其中,参数arg可以是一个函数、字典或Series,用来指定转换方法。na_…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.Series.str.contains()(检测序列中的字符串包含)函数使用方法

    pandas.Series.str.contains()方法是pandas库中Series对象的一个字符串成员方法,用于判断一个字符串是否包含在Series对象的每个元素中,返回一个布尔型Series对象。 使用方法: Series.str.contains(self: ~FrameOrSeries, pat, case=True, flags=0, na=…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.str.lower()(转换字符串为小写)函数使用方法

    pandas.str.lower()是一个Series对象方法,它用于将Series中的所有字符串转换为小写。 语法:Series.str.lower() 返回值:返回一个新的Series对象,其中包含所有字符串转换为小写后的结果。 下面通过两个实例来说明pandas.str.lower()的使用方法: 实例1 我们有一个包含姓名和职业的数据集。现在我们想要…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.isnull()(检测缺失值)函数使用方法

    pandas.DataFrame.isnull() 函数用于检查 DataFrame 中的数据是否为空(NaN)值,返回一个布尔型(True或False)的 DataFrame,其中True表示该位置为空,False表示该位置不为空。 使用方法 首先,导入 pandas 包并创建一个 DataFrame 示例: import pandas as pd dat…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.Series.str.extract()(提取序列中的字符串)函数使用方法

    pandas.Series.str.extract()是pandas库中Series类型中的一个方法,主要用于提取符合正则表达式模式的字符串,并返回新的DataFrame类型。它的主要作用是从Series中提取出符合特定模式的字符串,并将其保存到新的列中。 语法 pandas.Series.str.extract(pat) 第一个参数pat是正则表达式,指定…

    Pandas函数大全 2023年3月22日
    00
合作推广
合作推广
分享本页
返回顶部