Pandas 计算相关性系数corr()方式

当我们需要探查数据中各个特征之间的关系时，相关性系数是一种非常有用的工具。在 Pandas 中，我们可以使用 corr() 函数计算任意两个 Series 之间的相关性系数。

下面是使用 corr() 函数计算相关性系数的步骤：

导入 Pandas 库：

import pandas as pd

创建数据集：

data = {'A': [1, 2, 3, 4, 5], 
        'B': [2, 4, 6, 8, 10],
        'C': [3, 6, 9, 12, 15]}
df = pd.DataFrame(data)

我们创建了一个包含三个特征（A、B、C）和五个样本的数据集。

计算相关性系数：

corr_matrix = df.corr()

我们使用 corr() 函数计算了 df 中所有特征两两之间的相关性系数，并将结果存储在 corr_matrix 变量中。

查看相关性系数：

print(corr_matrix)

这个例子中，我们得到的相关性系数矩阵输出结果如下：

     A    B    C
A  1.0  1.0  1.0
B  1.0  1.0  1.0
C  1.0  1.0  1.0

这个结果说明所有特征之间的相关性系数都为 1.0，也就是说它们之间存在完美的正相关关系。

下面再看一个例子，这次我们使用一个更大的数据集：

import pandas as pd

data = pd.read_csv('data.csv', index_col=0)
corr_matrix = data.corr()
print(corr_matrix)

假设你有个名为 data.csv 的 CSV 文件，其中包含的是一些学生的个人信息（如年龄、性别、身高等等）以及一些考试得分数据。我们使用 read_csv() 函数读取这个文件，然后使用 corr() 函数计算所有特征之间的相关性系数。

这个例子中，我们得到的相关性系数矩阵输出结果如下：

              age    height    weight      math   physics  chemistry  biology
age      1.000000 -0.561301 -0.456001  0.097727 -0.104461  -0.237559 -0.458947
height  -0.561301  1.000000  0.781238  0.008919  0.104123   0.181578  0.345281
weight  -0.456001  0.781238  1.000000 -0.018246  0.033417   0.142838  0.552200
math     0.097727  0.008919 -0.018246  1.000000  0.742529   0.725799  0.338528
physics -0.104461  0.104123  0.033417  0.742529  1.000000   0.598301  0.066998
chemistry -0.237559  0.181578  0.142838  0.725799  0.598301   1.000000  0.145455
biology -0.458947  0.345281  0.552200  0.338528  0.066998   0.145455  1.000000

这个结果说明，各个特征之间的相关性系数有些为正数（说明两个特征具有正相关关系），有些为负数（说明两个特征具有负相关关系），有些接近于零（说明两个特征之间几乎没有相关关系）。

以上就是使用 corr() 函数计算相关性系数的完整攻略，注意在实际使用过程中需要根据数据的具体情况做出相应的调整。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas 计算相关性系数corr()方式 - Python技术站

Pandas 计算相关性系数corr()方式

相关文章