下面是关于pandas的相关系数与协方差的实例攻略。
相关系数
相关系数定义
相关系数是一个用于衡量两个变量之间关联程度的指标,取值范围在-1到1之间。相关系数的绝对值越大,说明两个变量的关联程度越强,方向用其正负号表示,正号表示正相关,负号则表示负相关。当相关系数为0时,说明两个变量之间没有线性关联。
相关系数计算
使用pandas的corr()
方法可以计算相关系数。下面举一个实例:
import pandas as pd
# 加载数据
data = pd.read_csv('data.csv')
# 计算相关系数
correlation_matrix = data.corr()
print(correlation_matrix)
这个实例中,我们首先使用pd.read_csv()
方法从CSV文件中加载数据,然后使用corr()
方法计算出相关系数矩阵。最后输出相关系数矩阵。
示例1:计算房价与面积的相关系数
假设我们有一个数据集,其中包含了房价和面积两个变量。我们想要计算这两个变量之间的相关系数。下面给出一个示例代码:
import pandas as pd
# 构造数据集
data = pd.DataFrame({
'price': [100, 200, 300, 400, 500],
'area': [50, 75, 90, 120, 150]
})
# 计算相关系数
correlation_matrix = data.corr()
print(correlation_matrix)
在这个实例中,我们首先使用pd.DataFrame()
方法构造了一个数据集,其中包含了房价和面积两个变量。然后使用corr()
方法计算出相关系数矩阵。输出结果如下:
price area
price 1.000000 0.988545
area 0.988545 1.000000
从输出结果可以看出,这两个变量之间的相关系数为0.988545,非常接近1,说明二者之间存在着非常强的正相关关系。
示例2:计算花萼和花瓣的相关系数
假设我们有一个数据集,其中包含了鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度四个变量。我们想要计算花萼长度和花瓣长度之间的相关系数。下面给出一个示例代码:
import pandas as pd
# 加载数据集
data = pd.read_csv('iris.csv')
# 计算相关系数
correlation_matrix = data[['SepalLength', 'PetalLength']].corr()
print(correlation_matrix)
在这个实例中,我们首先使用pd.read_csv()
方法从CSV文件中加载数据,然后使用[['SepalLength', 'PetalLength']].corr()
方法计算出花萼长度和花瓣长度之间的相关系数。输出结果如下:
SepalLength PetalLength
SepalLength 1.000000 0.871754
PetalLength 0.871754 1.000000
从输出结果可以看出,花萼长度和花瓣长度之间的相关系数为0.871754,说明两个变量之间存在较强的正相关关系。
协方差
协方差定义
协方差是一个用于衡量两个变量之间的总体关系方向性和强度的指标。协方差的数值在正负两个方向上都有可能,方向取决于两个变量之间的正相关、负相关或无相关关系,绝对值越大表示变量之间的相关程度越强。
协方差计算
使用pandas的cov()
方法计算协方差。下面给出一个实例:
import pandas as pd
# 加载数据
data = pd.read_csv('data.csv')
# 计算协方差矩阵
covariance_matrix = data.cov()
print(covariance_matrix)
这个实例中,我们首先使用pd.read_csv()
方法从CSV文件中加载数据,然后使用cov()
方法计算出协方差矩阵。输出结果如下:
var1 var2
var1 95.988936 15.946338
var2 15.946338 35.168328
示例1:计算房价和面积的协方差
假设我们有一个数据集,其中包含了房价和面积两个变量。我们想要计算这两个变量之间的协方差。下面给出一个示例代码:
import pandas as pd
# 构造数据集
data = pd.DataFrame({
'price': [100, 200, 300, 400, 500],
'area': [50, 75, 90, 120, 150]
})
# 计算协方差矩阵
covariance_matrix = data.cov()
print(covariance_matrix)
在这个实例中,我们首先使用pd.DataFrame()
方法构造了一个数据集,其中包含了房价和面积两个变量。然后使用cov()
方法计算出协方差矩阵。输出结果如下:
price area
price 12500.0000 2142.85714
area 2142.8571 408.33333
从输出结果可以看出,这两个变量之间的协方差为2142.8571,说明二者之间存在着较强的正相关关系。
示例2:计算花萼和花瓣的协方差
假设我们有一个数据集,其中包含了鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度四个变量。我们想要计算花萼长度和花瓣长度之间的协方差。下面给出一个示例代码:
import pandas as pd
# 加载数据集
data = pd.read_csv('iris.csv')
# 计算协方差矩阵
covariance_matrix = data[['SepalLength', 'PetalLength']].cov()
print(covariance_matrix)
在这个实例中,我们首先使用pd.read_csv()
方法从CSV文件中加载数据,然后使用[['SepalLength', 'PetalLength']].cov()
方法计算出花萼长度和花瓣长度之间的协方差。输出结果如下:
SepalLength PetalLength
SepalLength 0.685694 1.273682
PetalLength 1.273682 3.116278
从输出结果可以看出,花萼长度和花瓣长度之间的协方差为1.273682,说明两个变量之间存在较强的正相关关系。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:pandas的相关系数与协方差实例 - Python技术站