Pandas中describe()函数的具体使用

yizhihongxing

当我们探索数据集的时候,常常会需要获取数据集的基本统计信息。在 Pandas 中,我们可以使用 describe() 函数来完成这个任务。

描述性统计信息

describe() 函数可以为数据集提供描述性统计信息。该函数将计算如下统计量:

  • count(数量)
  • mean(平均值)
  • std(标准差)
  • min(最小值
  • 25% 百分位数
  • 50% 百分位数
  • 75% 百分位数
  • max(最大值)

示例1:

首先,来看一下一个小例子:

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

print(df.describe())

输出结果如下:

          survived      pclass         age       sibsp       parch        fare
count  891.000000  891.000000  714.000000  891.000000  891.000000  891.000000
mean     0.383838    2.308642   29.699118    0.523008    0.381594   32.204208
std      0.486592    0.836071   14.526497    1.102743    0.806057   49.693429
min      0.000000    1.000000    0.420000    0.000000    0.000000    0.000000
25%      0.000000    2.000000   20.125000    0.000000    0.000000    7.910400
50%      0.000000    3.000000   28.000000    0.000000    0.000000   14.454200
75%      1.000000    3.000000   38.000000    1.000000    0.000000   31.000000
max      1.000000    3.000000   80.000000    8.000000    6.000000  512.329200

我们可以看到,这个函数返回了每个数值类型列的种类数量,平均值,标准差,最大值、最小值以及各个百分位数(即 25%,50%,75%)的值。

示例2:

下面再来看一个例子,来自于电影评论数据集:

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/imdb_1000.csv")

print(df.describe(include=[object]))

输出结果如下:

          title genre     actor actress
count      1000  1000      1000     1000
unique     1000    16       546      361
top     Warriors  Drama  Harrison  Basinger
freq          1   278         6        8

在这个例子中,我们指定了 include=[object],这意味着我们将只获取对象类型的列(字符串)。于是我们看到了电影的总体描述性统计信息,包括电影的总数、总共有多少个类型、演员和女演员分别有多少个、电影类型和演员列表的最高频值等。

总结

describe() 函数是一个很有用的工具,可以让我们对数据集有一个详尽的了解。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas中describe()函数的具体使用 - Python技术站

(1)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 用Python Pandas操纵数据框架

    下面是详细讲解用Python Pandas操纵数据框架 的完整攻略,过程中实例说明: 什么是Pandas Pandas是一个开源数据分析工具,提供了大量高级数据结构和数据分析工具。其中,最重要的是DataFrame数据结构,可以方便、快捷的进行数据的清洗、转换、统计、分组、排序等一系列操作。 安装Pandas 使用pip命令安装Pandas即可: pip i…

    python-answer 2023年3月27日
    00
  • Python pandas找出、删除重复的数据实例

    Python pandas是一种强大的数据分析工具,可以轻松地处理数据,其中包括找出和删除重复的数据实例。下面是详细的攻略: 找出重复的数据实例 导入pandas库并读取数据 import pandas as pd data = pd.read_csv("data.csv") 查找重复数据 duplicate_data = data[da…

    python 2023年5月14日
    00
  • 将CSV转换为Pandas DataFrame

    转换CSV文件为Pandas DataFrame的主要步骤是读取CSV文件,并将其存储为Pandas DataFrame对象。以下是将CSV文件转换为Pandas DataFrame的完整攻略。 1. 导入必要的Python库 在Python中使用Pandas库读取和处理CSV文件,因此需要导入该库以及其他一些必要的Python库。 import panda…

    python-answer 2023年3月27日
    00
  • 从Python Pandas的日期中获取月份

    获取Pandas日期中的月份可以使用Pandas库提供的.dt.month属性。下面是详细的步骤: 创建一个包含日期数据的Pandas Series对象 import pandas as pd # 创建日期序列 dates = pd.Series([‘2010-01-01’, ‘2011-01-01’, ‘2012-01-01’, ‘2013-01-01’]…

    python-answer 2023年3月27日
    00
  • 如何通过索引标签在Pandas DataFrame中删除行

    在Pandas DataFrame中,我们可以使用索引标签来删除行。下面是详细的攻略步骤以及带有实例的说明: 1. 查看DataFrame 首先,我们需要查看DataFrame的数据内容。可以使用pandas库中的read_csv()函数读取csv文件,也可以手动创建DataFrame对象。例如,我们可以通过以下代码创建一个简单的DataFrame对象: i…

    python-answer 2023年3月27日
    00
  • 简单了解Pandas缺失值处理方法

    简单了解Pandas缺失值处理方法 Pandas是Python数据分析最常用的库之一,它提供了许多处理缺失值的函数。本攻略主要介绍如何使用Pandas处理缺失值。 Pandas中的缺失值 在Pandas中,缺失值通常用NaN(Not a Number)来表示。NaN是浮点类型,因此缺失值的列通常也被转化为浮点类型。 检测缺失值 检测缺失值通常使用isnull…

    python 2023年5月14日
    00
  • Pandas数据结构之Series的使用

    Pandas是Python语言中非常常用的数据处理和数据分析的库,其提供的数据结构包括了Series和DataFrame。本文我们将着重介绍Series这个数据结构的使用方法。 一、什么是Series Series是一个带索引标签的一维数组,可以用来存储任意类型的相似或不相似的数据类型。在这个数据结构中,标签通常称为索引,它们对应于每个特定数据点。 二、创建…

    python 2023年5月14日
    00
  • 如何从字符串列表中检查Pandas列是否有值

    要从字符串列表中检查Pandas列是否有值,可以参考以下步骤: 步骤1: 导入所需的库和数据 import pandas as pd # 创建Pandas数据集 data = {‘A’: [‘foo’, ‘bar’, ”], ‘B’: [”, ”, ‘baz’], ‘C’: [”, ‘qux’, ”]} df = pd.DataFrame(data…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部