要获得Pandas数据框架的描述性统计,需要使用Pandas中的describe()方法。该方法将生成基本统计信息,例如计数、均值、标准偏差、最小值、25%位数、50%位数、75%位数和最大值,以帮助用户更好地理解各列数据的分布情况。下面是详细的步骤和实例说明:
步骤1:导入Pandas库和数据集
import pandas as pd
# 读取csv文件
df = pd.read_csv('data.csv')
步骤2:使用describe()方法生成数据框架的描述性统计
# 生成描述性统计
descriptive_stats = df.describe()
# 输出结果
print(descriptive_stats)
步骤3:解释描述性统计结果
describe()方法生成的结果包括8个统计指标:计数(count)、均值(mean)、标准偏差(std)、最小值(min)、25%位数(25%)、50%位数(50%)、75%位数(75%)和最大值(max),这些统计指标对应于每个数值型列的基本概括。
以下是使用汽车数据集进行示例说明:
# 导入Pandas库和数据集
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/mpg.csv')
# 生成描述性统计
descriptive_stats = df.describe()
# 输出结果
print(descriptive_stats)
输出结果如下:
mpg cylinders displacement ... accel model_year origin
count 398.000000 398.000000 398.000000 ... 398.000000 398.000000 398.000000
mean 23.514573 5.454774 193.425879 ... 15.568090 76.010050 1.572864
std 7.815984 1.701004 104.269838 ... 2.757689 3.697627 0.802055
min 9.000000 3.000000 68.000000 ... 8.000000 70.000000 1.000000
25% 17.500000 4.000000 104.250000 ... 13.825000 73.000000 1.000000
50% 23.000000 4.000000 148.500000 ... 15.500000 76.000000 1.000000
75% 29.000000 8.000000 262.000000 ... 17.175000 79.000000 2.000000
max 46.600000 8.000000 455.000000 ... 24.800000 82.000000 3.000000
[8 rows x 7 columns]
解释结果:
- count列显示每列的非缺失值数量。
- mean列显示每列的平均值。
- std列显示每列的标准偏差。
- min列显示每列的最小值。
- 25%列显示每列的25%位数(即四分位数),该值代表数据分布的下四分位数。
- 50%列显示每列的50%位数(即中位数),该值代表数据分布的中位数。
- 75%列显示每列的75%位数(即四分位数),该值代表数据分布的上四分位数。
- max列显示每列的最大值。
综上所述,使用describe()方法生成数据框架的描述性统计具有较高的简便性和实用性,能够让用户快速了解数据集的特点,并从中获取有效信息。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:如何获得Pandas数据框架的描述性统计 - Python技术站