机器学习案例二：缺失时间序列数据填补与ESN(回声状态网络）

2023年4月10日上午12:43 • 机器学习

　　时间序列数据是一种与时间因素有关系的连续的数据，通常使用传感器等来获取，具有极高的应用价值，可以实时记录被监测设备或人的状态，同时可以用于预测建模，得到对某事件未来发展的一个期望。

在使用传感器进行数据采集的过程中，在没有备用传感器的情况下，会由于种种原因出现采集到的数据在某个时间段内数据缺失的现象。针对某个时间段内的部分数据缺失需要进行科学的验证，最重要的是要验证的是在数据缺失的前后传感器采集的数据是否发生了质的变化（如果发生则认为缺失数据前或后的数据是可用的，整体不可用）。

　　时间序列数据的填补不像单一缺失值的填补那么轻松，特别是在时间序列具有变化趋势和明显的周期波动现象。常用的时间学列填补方法的思路是从前到后填补、从后到前填补和两端同时开始填补。

　　本例中以某传感器采集的时间序列数据为基础，来使用具有递归性质的神经网络来对缺失的数据进行填补。（数据量在1500左右，数据量不是很大）

　　常用的具有递归性质的神经网络有Elman神经网络和ESN神经网络（由于本例数据较少，因此没有使用现在很流行的LSTM神经网络）。Elman神经网络的出现时间较早，原理较简单，这里介绍ESN神经网络。Jarger在2004年首先提出针对传统递归神经网络训练算法改进的新型递归神经网络，即回声状态网络（ESN）。对于BP神经网络中训练样本效率非常低的情况，回声状态网络凭借独特结构形态和训练方式有效避免了神经网络规模无法扩大以及局部最优情况。为了解决传统神经网络遇到的收敛慢和局部最小等问题，全新的ESN神经网络内部构造了储备池作为中心计算单元的重要结构，最大程度地模仿了生物神经元的构造和计算特征。由于没有使用梯度下降的学习算法，回声状态网络转而使用单次训练算法而非大量重复多次训练。另外模型中的复杂网络结构（储备池）由数量极大的神经元群相互连接，需要事先初始化储备池神经网络连接矩阵的权值，这使得ESN较之其他神经网络具有更好的稳定性。相对于其他神经网络而言，ESN能够更好的描述非线性混沌时间序列。

　　ESN的代码如下：

%% Prepare
clear all; 
disp('Loading data......');    

%% Data input
% Train data
traindata = '';
% Teach data
teachdata ='';

%% Data prepare
train = xlsread(traindata);
teach = xlsread(teachdata);

%% Exercise
tic
InputSequence = train;
OutputSequence = teach;
%% ESN
% 训练集和测试集
% [Am,An] = size(YA);
% tic
% InputSequence = YA(1:494,:);
% OutputSequence = input2;

% split the data into train and test

tic

train_fraction = 0.7 ; % use 50% in training and 50% in testing
[trainInputSequence, testInputSequence] = split_train_test(InputSequence,train_fraction);
[trainOutputSequence,testOutputSequence] = split_train_test(OutputSequence,train_fraction);

% generate an esn 
nInputUnits = 9; nInternalUnits = 50; nOutputUnits = 1; 
esn = generate_esn(nInputUnits, nInternalUnits, nOutputUnits, ...
    'spectralRadius',0.2,'inputScaling',[0.1;0.1;0.1;0.1;0.1;0.1;0.1;0.1;0.1],'inputShift',[0;0;0;0;0;0;0;0;0], ...
    'teacherScaling',[0.3],'teacherShift',[-0.2],'feedbackScaling', 0, ...
    'type', 'plain_esn'); 

esn.internalWeights = esn.spectralRadius * esn.internalWeights_UnitSR;

% train the ESN
nForgetPoints = 50 ; % discard the first 100 points
[trainedEsn, stateMatrix] = train_esn(trainInputSequence, trainOutputSequence, esn, nForgetPoints) ; 

nForgetPoints = 50 ; 
predictedTrainOutput = test_esn(trainInputSequence, trainedEsn, nForgetPoints);
predictedTestOutput = test_esn(testInputSequence,  trainedEsn, nForgetPoints) ; 

% create input-output plots
nPlotPoints = 60 ; 
nPlotPoints1 = 100 ; 
plot_sequence(trainOutputSequence(nForgetPoints+1:end,:), predictedTrainOutput, nPlotPoints1,...
    'training: teacher sequence (red) vs predicted sequence (blue)');
grid on;
plot_sequence(testOutputSequence(nForgetPoints+1:end,:), predictedTestOutput, nPlotPoints, ...
    'testing: teacher sequence (red) vs predicted sequence (blue)') ; 
grid on;

%compute NRMSE training error
trainError = compute_error(predictedTrainOutput, trainOutputSequence); 
disp(sprintf('train NRMSE = %s', num2str(trainError)))

%compute NRMSE testing error
testError = compute_error(predictedTestOutput, testOutputSequence); 
disp(sprintf('test NRMSE = %s', num2str(testError)))

disp('训练结束!');
toc

　　ESN神经网络的特殊结构需要调节的参数有隐含层神经元的个数、储备池的半径、输入信号的缩放比例、输入信号的偏移、输出信号的缩放比例和缩放信号的偏移。其中，隐含层的神经元个数对模型的预测精度影响最大，剩余的其他参数中，储备池的半径也对预测精度有较大的影响。在进行仿真的时候，神经元的传递函数选择ESN神经网络中的plain_esn。

　　因此在使用ESN神经网络的时候，主要需要调整的参数是隐含层的神经元个数和储备池的半径，一下是ESN的主函数：

nInputUnits = 9; nInternalUnits = 50; nOutputUnits = 1; 
esn = generate_esn(nInputUnits, nInternalUnits, nOutputUnits, ...
    'spectralRadius',0.2,'inputScaling',[0.1;0.1;0.1;0.1;0.1;0.1;0.1;0.1;0.1],'inputShift',[0;0;0;0;0;0;0;0;0], ...
    'teacherScaling',[0.3],'teacherShift',[-0.2],'feedbackScaling', 0, ...
    'type', 'plain_esn');

需要调节的是：1）nInternalUnits（隐含层的神经元个数）和 2）spectralRadius（储备池的半径）。

通过调节参数就可以进行数据的预测填补了。

plain_esn的源码：

function internalState = plain_esn(totalstate , esn , varargin)

% PLAIN_ESN computes the new internal states of the ESN by using the simple
% esn equations
%
% input arguments:
% totalstate: the previous totalstate, vector of size 
%     (esn.nInternalUnits + esn.nInputUnits + esn.nOutputUnits) x 1
% esn: the ESN structure
%
% output: 
% internalState: the updated internal state, size esn.nInternalUnits x 1
%
% Created April 30, 2006, D. Popovici
% Copyright: Fraunhofer IAIS 2006 / Patent pending%
% Revision 1, June 6, 2006, H.Jaeger
% Revision 2, June 23, 2007, H. Jaeger (include esn.feedbackScaling)


internalState =  feval( esn.reservoirActivationFunction , ...
    [esn.internalWeights , esn.inputWeights , esn.feedbackWeights * diag(esn.feedbackScaling )] * totalstate)  ;   
%%%% add noise to the Esn 
internalState = internalState + esn.noiseLevel * (rand(esn.nInternalUnits,1) - 0.5) ;

还有其他源码需要去下载资源包(http://bbs.06climate.com/forum.php?mod=viewthread&tid=35933)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习案例二：缺失时间序列数据填补与ESN(回声状态网络） - Python技术站

机器学习

0 0 打赏

微信扫一扫

支付宝扫一扫

机器学习简历

上一篇 2023年4月10日

机器学习案例一：小样本数据建模与灰色系统理论

下一篇 2023年4月10日

机器学习

【机器学习与R语言】9- 支持向量机

目录 1.理解支持向量机（SVM） 1）SVM特点 2）用超平面分类 3）对非线性空间使用核函数 2. 支持向量机应用示例 1）收集数据 2）探索和准备数据 3）训练数据 4）评估模型 5）提高性能 1）SVM特点支持向量机和神经网络都是“黑箱模型”的代表：潜在的模型基于复杂的数学系统，而且结果难以解释。 SVM的目标是创建一个平面边界（“超平面”），使得…

2023年4月9日
000
机器学习实战读书笔记(三)决策树

3.1 决策树的构造优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训练算法 5.测试算法 6.使用算法 3.1.1 信息增益创建数据集 def createDataSet(): dat…

机器学习 2023年4月12日
000
机器学习-SVD(隐语义模型)协同过滤

SVD(隐语义模型)协同过滤隐语义模型，数学上称为SVD，奇异值分解。该算法最早在文本挖掘领域被提出，用于找到文章的隐含主题，也被称为主题模型。隐语义模型的核心思想是通过隐含特征（Latent Factor）计算用户和物品的相似性。 SVD是将矩阵A分解成以下形式 A=U∑VT 其中U和V均为单位正交阵，UUT=E, VVT=E, U称为左奇异矩阵，V称…

机器学习 2023年4月13日
000
机器学习算法思想梳理

朴素贝叶斯：　　有以下几个地方需要注意：　　1. 如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位置是该单词出现的次数。　　2. 计算公式如下：　　　　其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法，而由朴素贝叶斯的前提假设可知，…

机器学习 2023年4月12日
000
机器学习树的算法总结

1.决策树骤如下：（1）：假设T为训练样本集。（2）：从属性集合Attributes中选择一个最能区别T中样本的属性。（3）：创建一个树节点，它的值为所选择的属性。创建此节点的子节点，每个子链代表所选属性的一个唯一值（唯一区间），使用子链的值进一步将样本细分为子类。对于每一个分支继续重复（2）（3）的过程，直到满足以下两个条件之一： (a):所有属…

机器学习 2023年4月15日
000
Pinterest凭什么拥有那么多用户:机器学习是答案

目前，Pinterest月平均活跃用户量达到1亿，这家以图片为主的公司是如何留住用户并盈利的呢？Pinterest的主要目标是向用户推荐相关的图片或内容，推荐的内容足够精确才能提高用户黏性。近期，《快公司》发文表示，Pinterest 正从机器学习切入，向用户推荐更精准的内容，并拓展新的在线业务。在Pinterest 平台上，人们可以搜索、下载全网范围内的…

机器学习 2023年4月12日
000
Anomaly Detection Python机器学习笔记异常点检测算法——Isolation Forest Python机器学习笔记——One Class SVM PAC在异常检测中的应用异常检测: 应用多元高斯分布进行异常检测

数据集中的异常数据通常被成为异常点、离群点或孤立点等，典型特征是这些数据的特征或规则与大多数数据不一致，呈现出“异常”的特点，而检测这些数据的方法被称为异常检测。　　异常数据根据原始数据集的不同可以分为离群点检测和新奇检测：离群点检测(Outlier Detection) 　　大多数情况我们定义的异常数据都属于离群点检测，对这些数据训练完之…

机器学习 2023年4月13日
000
机器学习

详解常用的机器学习专业术语！

机器学习是个复杂性、专业性很强的技术领域，它大量应用到了概率论、统计学、逼近论、算法复杂度等多门学科的知识，也因此会出现很多专业性很强的词汇。在我们探索机器学习的初级阶段，理解这些专业术语是学习过程中第一件重要任务，所以本章将详细介绍机器学习中常用的术语以及它的基本概念，为我们在后续的知识学习打下坚实的基础。在此之前，建议大家收藏本章内容，以便在后续学习…

2022年11月12日
000

机器学习案例二：缺失时间序列数据填补与ESN(回声状态网络）

相关文章