当我们需要探查数据中各个特征之间的关系时,相关性系数是一种非常有用的工具。在 Pandas 中,我们可以使用 corr()
函数计算任意两个 Series 之间的相关性系数。
下面是使用 corr()
函数计算相关性系数的步骤:
- 导入 Pandas 库:
import pandas as pd
- 创建数据集:
data = {'A': [1, 2, 3, 4, 5],
'B': [2, 4, 6, 8, 10],
'C': [3, 6, 9, 12, 15]}
df = pd.DataFrame(data)
我们创建了一个包含三个特征(A、B、C)和五个样本的数据集。
- 计算相关性系数:
corr_matrix = df.corr()
我们使用 corr()
函数计算了 df 中所有特征两两之间的相关性系数,并将结果存储在 corr_matrix
变量中。
- 查看相关性系数:
print(corr_matrix)
这个例子中,我们得到的相关性系数矩阵输出结果如下:
A B C
A 1.0 1.0 1.0
B 1.0 1.0 1.0
C 1.0 1.0 1.0
这个结果说明所有特征之间的相关性系数都为 1.0,也就是说它们之间存在完美的正相关关系。
下面再看一个例子,这次我们使用一个更大的数据集:
import pandas as pd
data = pd.read_csv('data.csv', index_col=0)
corr_matrix = data.corr()
print(corr_matrix)
假设你有个名为 data.csv
的 CSV 文件,其中包含的是一些学生的个人信息(如年龄、性别、身高等等)以及一些考试得分数据。我们使用 read_csv()
函数读取这个文件,然后使用 corr()
函数计算所有特征之间的相关性系数。
这个例子中,我们得到的相关性系数矩阵输出结果如下:
age height weight math physics chemistry biology
age 1.000000 -0.561301 -0.456001 0.097727 -0.104461 -0.237559 -0.458947
height -0.561301 1.000000 0.781238 0.008919 0.104123 0.181578 0.345281
weight -0.456001 0.781238 1.000000 -0.018246 0.033417 0.142838 0.552200
math 0.097727 0.008919 -0.018246 1.000000 0.742529 0.725799 0.338528
physics -0.104461 0.104123 0.033417 0.742529 1.000000 0.598301 0.066998
chemistry -0.237559 0.181578 0.142838 0.725799 0.598301 1.000000 0.145455
biology -0.458947 0.345281 0.552200 0.338528 0.066998 0.145455 1.000000
这个结果说明,各个特征之间的相关性系数有些为正数(说明两个特征具有正相关关系),有些为负数(说明两个特征具有负相关关系),有些接近于零(说明两个特征之间几乎没有相关关系)。
以上就是使用 corr()
函数计算相关性系数的完整攻略,注意在实际使用过程中需要根据数据的具体情况做出相应的调整。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas 计算相关性系数corr()方式 - Python技术站