Python数据分析–Numpy常用函数介绍(5)–Numpy中的相关性函数

2023年4月2日下午5:33 • Python开发

摘要：NumPy中包含大量的函数，这些函数的设计初衷是能更方便地使用，掌握解这些函数，可以提升自己的工作效率。这些函数包括数组元素的选取和多项式运算等。下面通过实例进行详细了解。

前述通过对某公司股票的收盘价的分析，了解了某些Numpy的一些函数。通常实际中，某公司的股价被另外一家公司的股价紧紧跟随，它们可能是同领域的竞争对手，也可能是同一公司下的不同的子公司。可能因两家公司经营的业务类型相同，面临同样的挑战，需要相同的原料和资源，并且争夺同类型的客户。

实际中，有很多这样的例子，如果要检验一下它们是否真的存在关联。一种方法就是看看两个公司股票收益率的相关性，强相关性意味着它们之间存在一定的关联性（特别是当所用的数据不够充足时，误差可能更大）

一、股票相关性分析

1、导出两个相关的股票数据，如下依次为：股票代码、日期、开盘价、最高价、最低价、收盘价、成交量。

Python数据分析--Numpy常用函数介绍(5)--Numpy中的相关性函数

2、分别从CSV文件中读入相关数据，即收盘价：

close = np.loadtxt('data036.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)
new_close = np.loadtxt('data999.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)

3、协方差描述的是两个变量共同变化的趋势，其实就是归一化前的相关系数。使用 cov 函数计算股票收益率的协方差矩阵，完整代码如下：

import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt

def datestr2num(s): #定义一个函数
    return datetime.strptime(s.decode('ascii'),"%Y-%m-%d").date().weekday()

close=np.loadtxt('data036.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True) #导入data036.csv数据 
new_close=np.loadtxt('data999.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)#导入data999.csv数据
covariance = np.cov(close,new_close) #使用numpy.cov() 函数计算两个数列的协方差矩阵
print(close.mean()) #求close的平均值
print(new_close.mean())#求new_close的平均值
print('covariance:','n',covariance)

运行结果：

48.40690476190476
18.85157142857143
covariance: 
 [[30.46934553  1.5201865 ]
 [ 1.5201865   8.96031113]]

1)用 diagonal 函数查看矩阵对角线上的元素

print ("对角元素：", covariance.diagonal()) # diagonal查看对角上的元素

运行结果：

对角元素： [30.46934553  8.96031113]

2）使用 trace 函数计算矩阵的迹，即对角线上元素之和

print("Covariance trace", covariance.trace()) #对角线上元素之和

3）两个向量的相关系数被定义为协方差除以各自标准差的乘积。计算向量 a 和 b 的相关系数的公式：corr(a,b)=cov(a,b)/(std(a)*std(b))

covar = covariance/ (np.std(close) * np.std(new_close))
print("相关系数矩阵：", covar)

运行结果：

相关系数矩阵： [[1.84843969 0.09222295]
 [0.09222295 0.54358223]]

注意：由于covariance是一个矩阵，因而得到的covar也是一个矩阵

相关系数是两只股票的相关程度。相关系数的取值范围在 -1 到 1 之间。根据定义，一组数值与自身的相关系数等于 1 ，numpy中使用 corrcoef 函数计算相关系数

closecorr = np.corrcoef(close,new_close)
print("相关系数:",'n', closecorr )

运行结果：

相关系数: 
 [[1.         0.09200338]
 [0.09200338 1.        ]]

对角线上的元素即close和new_close与自身的相关系数，因此均为1。相关系数矩阵是关于对角线对称的，因此另外两个元素的值相等，表示close和new_close的相关系数等于new_close和close的相关系数。

判断两只股票的价格走势是否同步的要点是，它们的差值偏离了平均差值2倍于标准差的距离，则认为这两只股票走势不同步。代码如下：

difference = close - new_close
avg = np.mean(difference)
dev = np.std(difference)
print ("Out of sync:", np.abs(difference[-1]-avg)>2*dev)

运行结果：

Out of sync: False

二、多项式

微积分里有泰勒展开，也就是用一个无穷级数来表示一个可微的函数。实际上，任何可微的（从而也是连续的）函数都可以用一个N次多项式来估计，而比N次幂更高阶的部分为无穷小量可忽略不计。

NumPy中的 ployfit 函数可以用多项式去拟合一系列数据点，无论这些数据点是否来自连续函数都适用。

继续使用close和new_close的股票价格数据。用一个三次多项式去拟合两只股票收盘价的差价。

t = np.arange(len(close)) #得到close数列的长度
poly = np.polyfit(t, close - new_close, 3) #利用长度t和两只股票的价差，生成一个三项式，三项式有3个系数和一个常量
print("Polynomial fit", poly)

运行结果：

Polynomial fit： [ 1.61308827e-07 -4.34114354e-04  1.84480028e-01  1.33680483e+01]

用我们刚刚得到的多项式对象以及 polyval 函数，推断下一个差值：

print ("Next value:", np.polyval(poly, t[-1] + 1)) #用生成的多项式拟合求下一个差值
print(difference[-1]) #打印最后一个实际的差值

运行结果：

Next value: 26.222936287829654
26.21

在极限情况下，差值可以在某个点为0。使用 roots 函数找出拟合的多项式函数什么时候到达0值：

print( "Roots", np.roots(poly))#root返回多项式的根

运行结果：

Roots [2138.21411788  615.9134063   -62.92728874]

三、求极值的知识

极值是函数的最大值或最小值。在高等代数微积分中，这些极值点位于函数的导数为0的位置，然后再求导数函数的根，即找出原多项式函数的极值点。

1）使用 polyder 函数对多项式函数求导

der = np.polyder(poly)
print（"Derivative", der）

2）求出导数函数的根，即找出原多项式函数的极值点

print( "Extremas", np.roots(der))

运行后即得到如下：

Derivative: [ 4.83926482e-07 -8.68228709e-04  1.84480028e-01]
Extremas [1547.84609151  246.28739879]

3）用 polyval 计算多项式函数的值，并用matplotlib显示

vals = np.polyval(poly, t)
print('vals:',vals)
print('max value:', np.argmax(vals))
print('min value:', np.argmin(vals))

plt.plot(t,difference)
plt.plot(t,vals)
plt.show()

运行结果如下：

Python数据分析--Numpy常用函数介绍(5)--Numpy中的相关性函数

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python数据分析–Numpy常用函数介绍(5)–Numpy中的相关性函数 - Python技术站

PursuitingPeak

0 0 打赏

微信扫一扫

支付宝扫一扫

matplotlib学习笔记

上一篇 2023年4月2日下午5:33

word文档样式批量处理，久违了

下一篇 2023年4月2日下午5:33

Python开发

python数据可视化-matplotlib入门(2)-利用随机函数生成变化图形

综合前述的类、函数、matplotlib等，完成一个随机移动的过程（注意要确定移动的次数，比如10万次），每次行走都完全是随机的，没有明确的方向，结果是由一系列随机决策确定的，最后显示出每次移动的位置的图表。思考： 1）每次走动多少个像素，由随机函数决定，每次移动方向也随机确定。由随机方向和随机像素共同移动位置大小和方向。 2）保证将每次移动的位置保存在列…

2023年4月2日
000
Python开发

python入门基础(3) 字符串、列表访问

一、列表列表由一系列按特定顺序排列的多个元素或空元素组成，包含字母表中所有字母、数字0~9或所有家庭成员姓名的列表；列表中各元素间可以没有任何关系；实际使用过程中，通常给列表指定一个表示复数的名称，如names，cars，letters，dog_names。列表大多数是是动态的，列表创建后，将随着程序的运行，列表的长度，数值（或字符串值）都会不断变化，需…

2023年4月2日
000
Python开发

python入门基础(6)–语句基础（if语句、while语句）

一、if语句 if 语句让你能够检查程序的当前状态，并据此采取相应的措施。if语句可应用于列表，以另一种方式处理列表中的大多数元素，以及特定值的元素1、简单示例 names=[‘xiaozhan’,’caiyilin’,’zhoushen’,’DAOlang’,’huangxiaoming’] for name in names: if name == ‘c…

2023年4月2日
000
Python开发

python入门基础(10)–类的创建、使用和继承

在面向对象编程中，先编写表示现实世界中的事物和情景的类，并基于这些类来创建对象。基于类创建对象时，每个对象都自动具备类的通用行为，同时可根据需要赋予每个对象独特的个性，在实例中存储特定信息及操作根据类来创建对象被称为实例化类，也可以用来扩展既有类的功能，让相似的类能够高效地共享代码一、创建和使用类、实例编写一个学生的类，含有名字、年龄、年级、家乡等信息，…

2023年4月2日
000
Python开发

python入门基础(7)–字典及相关操作

一、什么是字典字典是Python中最强大的数据类型之一，也是Python语言中唯一的映射类型。映射类型对象里哈希值(键,key)和指向的对象(值,value)是一对多的的关系,通常被认为是可变的哈希表,字典对象是可变的,它是一个容器类型,能存储任意个数的Python对象,其中也可包括其他容器类型。字典类型与序列类型的区别：1.存取和访问数据的方式不同。2…

2023年4月2日
000
Python开发

python数据可视化-matplotlib入门(1)–安装及绘制简单的曲线

一、安装matplotlib 1）由于已安装anaconda，可直接打开anaconda prompt，再用命令pip install matplotlib进行安装，因镜像问题，可能较慢，建议第2种方式。 2）访问https://pypi.org/project/matplotlib/#files，并查找与你使用的Python版本匹配的wheel文件（扩展名…

2023年4月2日
000
Python开发

Python数据分析–Numpy常用函数介绍(3)

摘要：先汇总相关股票价格，然后有选择地对其分类，再计算移动均线、布林线等。一、汇总数据汇总整个交易周中从周一到周五的所有数据（包括日期、开盘价、最高价、最低价、收盘价，成交量等），由于我们的数据是从2020年8月24日开始导出，数据多达420条，先截取部分时间段的数据，不妨先读取开始20个交易日的价格。代码如下： import numpy as np f…

2023年4月2日
000
Python开发

python数据可视化-matplotlib入门(3)-利用随机函数生成变化图形2

鉴于上一篇中最后三个问题： 1、上述程序是否能进行优化（比如功能相同的） 2、创建三个3个实例，用了3个语句，能否建一个函数，只输入一个数n，就自动创建n个实例？同时，每个实例的num_times随机，(n比较大时，num_times应该比较小) 3、当实现上述功能后，程序运行，只输入一个参数（创建实例的个数），就会自动生成对应的num_times，并分别…

2023年4月2日
000

Python数据分析–Numpy常用函数介绍(5)–Numpy中的相关性函数

相关文章