在数据分析的过程中,使用统计函数有助于我们理解和分析数据。Pandas作为一个最热门的Python数据处理库,提供了许多有用的统计函数,用于对数据进行汇总、分组、聚合和计算。
下面的表格是一些常见的统计函数:
函数名称 | 函数功能说明 |
---|---|
describe() | 生成数据集的描述性统计信息,包括计数、平均值、标准差、最小值、最大值和四分位数等。 |
mean() | 计算序列或数据框的平均值。 |
median() | 计算序列或数据框的中位数。 |
mode() | 计算序列或数据框的众数。 |
var() | 计算序列或数据框的方差。 |
std() | 计算序列或数据框的标准差。 |
min() | 计算序列或数据框的最小值。 |
max() | 计算序列或数据框的最大值。 |
sum() | 计算序列或数据框的总和。 |
count() | 计算序列或数据框中的非缺失值数量。 |
quantile() | 计算序列或数据框的分位数。 |
cumsum() | 计算序列或数据框的累计和。 |
cumprod() | 计算序列或数据框的累计积。 |
cummax() | 计算序列或数据框的累计最大值。 |
cummin() | 计算序列或数据框的累计最小值。 |
corr() | 计算序列或数据框之间的相关系数矩阵。 |
cov() | 计算序列或数据框之间的协方差矩阵。 |
skew() | 计算序列或数据框的偏度。 |
kurtosis() | 计算序列或数据框的峰度。 |
value_counts() | 计算序列或数据框中每个值的出现次数。 |
接下来将为你介绍Pandas最常用的7个统计函数。
mean():计算序列或数据框的平均值
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
print(data.mean()) # 输出: 3.0
dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.mean()) # 输出: A 2.0 B 5.0 dtype: float64
sum():计算序列或数据框的总和
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
print(data.sum()) # 输出: 15
dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.sum()) # 输出: A 6 B 15 dtype: int64
count():计算序列或数据框中的非缺失值数量
import pandas as pd
import numpy as np
data = pd.Series([1, 2, np.nan, 4, 5])
print(data.count()) # 输出: 4
dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, np.nan, 6]})
print(dataframe.count()) # 输出: A 3 B 2 dtype: int64
max():计算序列或数据框的最大值
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
print(data.max()) # 输出: 5
dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.max()) # 输出: A 3 B 6 dtype: int64
min():计算序列或数据框的最小值
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
print(data.min()) # 输出: 1
dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.min()) # 输出: A 1 B 4 dtype: int64
std():计算序列或数据框的标准差
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
print(data.std()) # 输出: 1.5811388300841898
dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.std()) # 输出: A 1.0 B 1.0 dtype: float64
var():计算序列或数据框的方差
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
print(data.var()) #2.5
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas最常用的7个统计函数详解 - Python技术站