当我们探索数据集的时候,常常会需要获取数据集的基本统计信息。在 Pandas 中,我们可以使用 describe()
函数来完成这个任务。
描述性统计信息
describe()
函数可以为数据集提供描述性统计信息。该函数将计算如下统计量:
- count(数量)
- mean(平均值)
- std(标准差)
- min(最小值
- 25% 百分位数
- 50% 百分位数
- 75% 百分位数
- max(最大值)
示例1:
首先,来看一下一个小例子:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")
print(df.describe())
输出结果如下:
survived pclass age sibsp parch fare
count 891.000000 891.000000 714.000000 891.000000 891.000000 891.000000
mean 0.383838 2.308642 29.699118 0.523008 0.381594 32.204208
std 0.486592 0.836071 14.526497 1.102743 0.806057 49.693429
min 0.000000 1.000000 0.420000 0.000000 0.000000 0.000000
25% 0.000000 2.000000 20.125000 0.000000 0.000000 7.910400
50% 0.000000 3.000000 28.000000 0.000000 0.000000 14.454200
75% 1.000000 3.000000 38.000000 1.000000 0.000000 31.000000
max 1.000000 3.000000 80.000000 8.000000 6.000000 512.329200
我们可以看到,这个函数返回了每个数值类型列的种类数量,平均值,标准差,最大值、最小值以及各个百分位数(即 25%,50%,75%)的值。
示例2:
下面再来看一个例子,来自于电影评论数据集:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/imdb_1000.csv")
print(df.describe(include=[object]))
输出结果如下:
title genre actor actress
count 1000 1000 1000 1000
unique 1000 16 546 361
top Warriors Drama Harrison Basinger
freq 1 278 6 8
在这个例子中,我们指定了 include=[object]
,这意味着我们将只获取对象类型的列(字符串)。于是我们看到了电影的总体描述性统计信息,包括电影的总数、总共有多少个类型、演员和女演员分别有多少个、电影类型和演员列表的最高频值等。
总结
describe()
函数是一个很有用的工具,可以让我们对数据集有一个详尽的了解。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas中describe()函数的具体使用 - Python技术站