如何获得Pandas数据框架的描述性统计

2023年3月27日下午3:14 • python-answer

要获得Pandas数据框架的描述性统计，需要使用Pandas中的describe()方法。该方法将生成基本统计信息，例如计数、均值、标准偏差、最小值、25%位数、50%位数、75%位数和最大值，以帮助用户更好地理解各列数据的分布情况。下面是详细的步骤和实例说明：

步骤1：导入Pandas库和数据集

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')

步骤2：使用describe()方法生成数据框架的描述性统计

# 生成描述性统计
descriptive_stats = df.describe()

# 输出结果
print(descriptive_stats)

步骤3：解释描述性统计结果

describe()方法生成的结果包括8个统计指标：计数（count）、均值（mean）、标准偏差（std）、最小值（min）、25%位数（25%）、50%位数（50%）、75%位数（75%）和最大值（max），这些统计指标对应于每个数值型列的基本概括。

以下是使用汽车数据集进行示例说明：

# 导入Pandas库和数据集
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/mpg.csv')

# 生成描述性统计
descriptive_stats = df.describe()

# 输出结果
print(descriptive_stats)

输出结果如下：

             mpg   cylinders  displacement  ...       accel  model_year         origin
count  398.000000  398.000000    398.000000  ...  398.000000  398.000000    398.000000
mean    23.514573    5.454774    193.425879  ...   15.568090   76.010050      1.572864
std      7.815984    1.701004    104.269838  ...    2.757689    3.697627      0.802055
min      9.000000    3.000000     68.000000  ...    8.000000   70.000000      1.000000
25%     17.500000    4.000000    104.250000  ...   13.825000   73.000000      1.000000
50%     23.000000    4.000000    148.500000  ...   15.500000   76.000000      1.000000
75%     29.000000    8.000000    262.000000  ...   17.175000   79.000000      2.000000
max     46.600000    8.000000    455.000000  ...   24.800000   82.000000      3.000000

[8 rows x 7 columns]

解释结果：