pandas的相关系数与协方差实例

下面是关于pandas的相关系数与协方差的实例攻略。

相关系数

示例1：计算房价与面积的相关系数

假设我们有一个数据集，其中包含了房价和面积两个变量。我们想要计算这两个变量之间的相关系数。下面给出一个示例代码：

import pandas as pd

# 构造数据集
data = pd.DataFrame({
    'price': [100, 200, 300, 400, 500],
    'area': [50, 75, 90, 120, 150]
})

# 计算相关系数
correlation_matrix = data.corr()

print(correlation_matrix)

在这个实例中，我们首先使用pd.DataFrame()方法构造了一个数据集，其中包含了房价和面积两个变量。然后使用corr()方法计算出相关系数矩阵。输出结果如下：

          price      area
price  1.000000  0.988545
area   0.988545  1.000000

从输出结果可以看出，这两个变量之间的相关系数为0.988545，非常接近1，说明二者之间存在着非常强的正相关关系。

示例2：计算花萼和花瓣的相关系数

假设我们有一个数据集，其中包含了鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度四个变量。我们想要计算花萼长度和花瓣长度之间的相关系数。下面给出一个示例代码：

import pandas as pd

# 加载数据集
data = pd.read_csv('iris.csv')

# 计算相关系数
correlation_matrix = data[['SepalLength', 'PetalLength']].corr()

print(correlation_matrix)

在这个实例中，我们首先使用pd.read_csv()方法从CSV文件中加载数据，然后使用[['SepalLength', 'PetalLength']].corr()方法计算出花萼长度和花瓣长度之间的相关系数。输出结果如下：

             SepalLength  PetalLength
SepalLength     1.000000     0.871754
PetalLength     0.871754     1.000000

从输出结果可以看出，花萼长度和花瓣长度之间的相关系数为0.871754，说明两个变量之间存在较强的正相关关系。

协方差

协方差定义

协方差是一个用于衡量两个变量之间的总体关系方向性和强度的指标。协方差的数值在正负两个方向上都有可能，方向取决于两个变量之间的正相关、负相关或无相关关系，绝对值越大表示变量之间的相关程度越强。

协方差计算

使用pandas的cov()方法计算协方差。下面给出一个实例：

import pandas as pd

# 加载数据
data = pd.read_csv('data.csv')

# 计算协方差矩阵
covariance_matrix = data.cov()

print(covariance_matrix)

这个实例中，我们首先使用pd.read_csv()方法从CSV文件中加载数据，然后使用cov()方法计算出协方差矩阵。输出结果如下：

            var1       var2
var1  95.988936  15.946338
var2  15.946338  35.168328

示例1：计算房价和面积的协方差

假设我们有一个数据集，其中包含了房价和面积两个变量。我们想要计算这两个变量之间的协方差。下面给出一个示例代码：

import pandas as pd

# 构造数据集
data = pd.DataFrame({
    'price': [100, 200, 300, 400, 500],
    'area': [50, 75, 90, 120, 150]
})

# 计算协方差矩阵
covariance_matrix = data.cov()

print(covariance_matrix)

在这个实例中，我们首先使用pd.DataFrame()方法构造了一个数据集，其中包含了房价和面积两个变量。然后使用cov()方法计算出协方差矩阵。输出结果如下：

            price        area
price  12500.0000  2142.85714
area    2142.8571   408.33333

从输出结果可以看出，这两个变量之间的协方差为2142.8571，说明二者之间存在着较强的正相关关系。

示例2：计算花萼和花瓣的协方差

假设我们有一个数据集，其中包含了鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度四个变量。我们想要计算花萼长度和花瓣长度之间的协方差。下面给出一个示例代码：

import pandas as pd

# 加载数据集
data = pd.read_csv('iris.csv')

# 计算协方差矩阵
covariance_matrix = data[['SepalLength', 'PetalLength']].cov()

print(covariance_matrix)

在这个实例中，我们首先使用pd.read_csv()方法从CSV文件中加载数据，然后使用[['SepalLength', 'PetalLength']].cov()方法计算出花萼长度和花瓣长度之间的协方差。输出结果如下：

             SepalLength  PetalLength
SepalLength     0.685694    1.273682
PetalLength     1.273682    3.116278

从输出结果可以看出，花萼长度和花瓣长度之间的协方差为1.273682，说明两个变量之间存在较强的正相关关系。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：pandas的相关系数与协方差实例 - Python技术站

pandas的相关系数与协方差实例

相关系数

相关系数定义

相关系数计算

示例1：计算房价与面积的相关系数

示例2：计算花萼和花瓣的相关系数

协方差

协方差定义

协方差计算

示例1：计算房价和面积的协方差

示例2：计算花萼和花瓣的协方差

pandas的相关系数与协方差实例

相关系数

相关系数定义

相关系数计算

示例1：计算房价与面积的相关系数

示例2：计算花萼和花瓣的相关系数

协方差

协方差定义

协方差计算

示例1：计算房价和面积的协方差

示例2：计算花萼和花瓣的协方差

相关文章