Pandas中describe()函数的具体使用

当我们探索数据集的时候,常常会需要获取数据集的基本统计信息。在 Pandas 中,我们可以使用 describe() 函数来完成这个任务。

描述性统计信息

describe() 函数可以为数据集提供描述性统计信息。该函数将计算如下统计量:

  • count(数量)
  • mean(平均值)
  • std(标准差)
  • min(最小值
  • 25% 百分位数
  • 50% 百分位数
  • 75% 百分位数
  • max(最大值)

示例1:

首先,来看一下一个小例子:

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

print(df.describe())

输出结果如下:

          survived      pclass         age       sibsp       parch        fare
count  891.000000  891.000000  714.000000  891.000000  891.000000  891.000000
mean     0.383838    2.308642   29.699118    0.523008    0.381594   32.204208
std      0.486592    0.836071   14.526497    1.102743    0.806057   49.693429
min      0.000000    1.000000    0.420000    0.000000    0.000000    0.000000
25%      0.000000    2.000000   20.125000    0.000000    0.000000    7.910400
50%      0.000000    3.000000   28.000000    0.000000    0.000000   14.454200
75%      1.000000    3.000000   38.000000    1.000000    0.000000   31.000000
max      1.000000    3.000000   80.000000    8.000000    6.000000  512.329200

我们可以看到,这个函数返回了每个数值类型列的种类数量,平均值,标准差,最大值、最小值以及各个百分位数(即 25%,50%,75%)的值。

示例2:

下面再来看一个例子,来自于电影评论数据集:

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/imdb_1000.csv")

print(df.describe(include=[object]))

输出结果如下:

          title genre     actor actress
count      1000  1000      1000     1000
unique     1000    16       546      361
top     Warriors  Drama  Harrison  Basinger
freq          1   278         6        8

在这个例子中,我们指定了 include=[object],这意味着我们将只获取对象类型的列(字符串)。于是我们看到了电影的总体描述性统计信息,包括电影的总数、总共有多少个类型、演员和女演员分别有多少个、电影类型和演员列表的最高频值等。

总结

describe() 函数是一个很有用的工具,可以让我们对数据集有一个详尽的了解。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas中describe()函数的具体使用 - Python技术站

(1)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Pandas 按时间间隔的滚动平均值

    Pandas是一个Python编程语言的数据分析库,其中包含了许多用于数据处理和统计的工具。在Pandas中,我们可以使用rolling()函数来进行滚动(滑动)操作,常见的应用包括按时间间隔的滑动平均值、滑动标准差等。 下面是按时间间隔的滚动平均值具体攻略: 首先,我们导入Pandas库: import pandas as pd 接下来,我们创建一个示例数…

    python-answer 2023年3月27日
    00
  • Pandas的Apply函数具体使用

    关于Pandas的Apply函数的具体使用,我将为您提供一份完整攻略。下面将会分为以下几个部分: 什么是Pandas的Apply函数? Apply函数的基础用法 Apply函数的高级用法 两条示例说明 1.什么是Pandas的Apply函数? Pandas的apply函数是一种能够作用于Pandas数据的灵活且高性能的函数。此函数可以用于许多相似的目的。比如…

    python 2023年5月14日
    00
  • Pandas中不同类型的连接

    在Pandas中,连接是将不同的数据集合并成一个更大的数据集的实用操作。Pandas提供了多个不同类型的连接方法,包括内连接、左连接、右连接和外连接。下面逐一进行详细讲解。 内连接 内连接是连接操作中最常见的一种,它只保留两个数据集中共有的部分,即取两个数据集的共同部分。在Pandas中,使用merge()方法实现内连接。参数how=’inner’表示使用内…

    python-answer 2023年3月27日
    00
  • Pandas – 从整个数据框架中剥离空白部分

    Pandas 是 Python 中一个强大的数据处理库,可以方便地对数据进行读取、写入、切片、过滤、聚合、可视化等操作。在数据处理的过程中,我们会遇到一些空白部分(如 NaN 、空字符串等),这些空白部分会对后续的数据分析和建模产生影响,因此需要对它们进行处理。本文将详细讲解如何从整个数据框架中剥离空白部分。 准备工作 在开始之前,需要先安装 Pandas …

    python-answer 2023年3月27日
    00
  • 在Pandas中删除列名中的空格

    在Pandas中,删除列名中的空格可以通过以下两种方式实现: 使用字符串方法str.replace()替换空格: import pandas as pd # 创建包含有空格的列名的DataFrame df = pd.DataFrame({‘C ol 1’: [1, 2, 3], ‘C ol 2’: [4, 5, 6], ‘C ol 3’: [7, 8, 9]…

    python-answer 2023年3月27日
    00
  • 如何利用python批量提取txt文本中所需文本并写入excel

    这里给出如何利用Python批量提取txt文本中所需文本并写入Excel的攻略,共分为五个步骤。 第一步 首先需要安装两个Python库,它们分别是pandas和glob,pandas用于将提取的内容写入Excel,glob用于遍历目标文件夹中的所有文件。 import pandas as pd import glob 第二步 使用glob库来遍历目标文件夹…

    python 2023年5月14日
    00
  • pandas数据清洗,排序,索引设置,数据选取方法

    下面是“pandas数据清洗,排序,索引设置,数据选取方法”的完整攻略。 Pandas数据清洗 在Pandas中,我们常常需要对数据进行清洗,以提高数据质量和可用性。数据清洗的过程包括数据去重,缺失值处理,数据类型转换,字符串处理等。 数据去重 在Pandas中,可以使用drop_duplicates()方法去掉DataFrame中的重复记录。该方法默认以所…

    python 2023年5月14日
    00
  • 如何用Python中Tushare包轻松完成股票筛选(详细流程操作)

    我来详细讲解如何用Python中Tushare包轻松完成股票筛选的完整攻略。 1.准备工作 首先,我们需要准备一下环境。1. 安装Python:前往官网下载并安装 https://www.python.org/downloads/2. 安装Tushare包:在命令行输入 pip install tushare 即可安装 2.获取数据 使用Tushare包可以…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部