Pandas中describe()函数的具体使用

当我们探索数据集的时候，常常会需要获取数据集的基本统计信息。在 Pandas 中，我们可以使用 describe() 函数来完成这个任务。

描述性统计信息

describe() 函数可以为数据集提供描述性统计信息。该函数将计算如下统计量：

count(数量)
mean(平均值)
std(标准差)
min(最小值
25% 百分位数
50% 百分位数
75% 百分位数
max(最大值)

示例1：

首先，来看一下一个小例子：

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

print(df.describe())

输出结果如下：

          survived      pclass         age       sibsp       parch        fare
count  891.000000  891.000000  714.000000  891.000000  891.000000  891.000000
mean     0.383838    2.308642   29.699118    0.523008    0.381594   32.204208
std      0.486592    0.836071   14.526497    1.102743    0.806057   49.693429
min      0.000000    1.000000    0.420000    0.000000    0.000000    0.000000
25%      0.000000    2.000000   20.125000    0.000000    0.000000    7.910400
50%      0.000000    3.000000   28.000000    0.000000    0.000000   14.454200
75%      1.000000    3.000000   38.000000    1.000000    0.000000   31.000000
max      1.000000    3.000000   80.000000    8.000000    6.000000  512.329200

我们可以看到，这个函数返回了每个数值类型列的种类数量，平均值，标准差，最大值、最小值以及各个百分位数（即 25%，50%，75%）的值。

示例2：

下面再来看一个例子，来自于电影评论数据集：

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/imdb_1000.csv")

print(df.describe(include=[object]))

输出结果如下：

          title genre     actor actress
count      1000  1000      1000     1000
unique     1000    16       546      361
top     Warriors  Drama  Harrison  Basinger
freq          1   278         6        8

在这个例子中，我们指定了 include=[object]，这意味着我们将只获取对象类型的列（字符串）。于是我们看到了电影的总体描述性统计信息，包括电影的总数、总共有多少个类型、演员和女演员分别有多少个、电影类型和演员列表的最高频值等。

总结

describe() 函数是一个很有用的工具，可以让我们对数据集有一个详尽的了解。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas中describe()函数的具体使用 - Python技术站

Pandas中describe()函数的具体使用

描述性统计信息

示例1：

示例2：

总结

相关文章