随机分布嵌入使短时高维序列可预测

【Randomly Distributed Embedding Making Short-term High-dimensional Data Predictable】的阅读与感悟。

随着大数据时代的不断推进，数据越来越多，能否从复杂的数据中提取出有价值的信息，取决于数据处理的方法。对于现实世界中的非线性动态系统的预测一直都是个挑战，非线性动态系统往往具有时间短、维数高的特点，这恰好也是数据准确预测的一个难题。

对于数据处理，大多数情况下都是以时间为自变量。1994年由Hamilton创作的时间序列分析一书，将对于时间序列的分析应用于经济学。书中介绍了数据处理比较基础的差分方程和延迟操作符；介绍了平稳自回归滑动平均模型(stationary ARMA processes)，该模型是研究时间序列的重要方法，它由自回归模型(AR)，与移动平均模型(MA)为基础混合而成，在市场研究中常用于长期的追踪资料的研究。可是该模型也是具有一定的局限性，譬如在我阅读中发现，该模型对于自变量与因变量之间存在线性关系的时候，用最小二乘法可以估算出参数，并且估算的结果比较精确，当二者之间是非线性的关系时，便难以求得ARMA模型参数的准确估值。书中还简单谈论了谱的参数化和非参数化，对于独立数据的大数定律，利用切比雪夫不等式进行连续相关的观测。

大数据时代，以时间序列为主要模式的积累，从微观的基因表达数据，到细微的神经活动数据，再到宏观的生态和大气数据。要从这样复杂的数据中，寻求准确的预报与预测，尤其时基于这样有着序列长度短、维度高的数据集。通常，短时、高维这两个性质都被认为时准确性和鲁棒性预测的障碍，因为短时数据就会导致更少的数据模式，高维系统的变量可能带来维度的问题。例如在基于模型的方法中的回归方法(Regression Method)。回归方法通常会应用于自变量数据具有高度相关性的拟合中，这种回归方法可以在原来的偏差基础上再增加一个偏差度来减小总体的标准偏差。然而，回归方法如果应用于短时高维数据集上时，由于高维变量需要在运算模型中加入更多的参数或者权重，从而在数据集时间短的时候，不能够有效准确的估算这些参数和权重。而对于基于经验的无模型方法(empiricism-based model-free method)，通常利用的是最近相邻的值来预测目标值。一个系统有朝着某个稳态发展的趋势，这个稳态叫做吸引子，吸引子描述的是运动的收敛类型，存在于相空间。然而，在短时高维特征的数据集中，短时数据使得高维空间中用来描述动态特征的吸引子变得稀疏，因此便会产生错误的最近相邻问题。

图一 DNB网络图

另外，对于机器学习的方法，例如深度信念网络(deep belief network DBN)，是神经网络的一种。该方法既可以用于非监督学习，类似于一个自编码机；也可以用于监督学习，作为分类器来使用。从非监督学习来讲，其目的是尽可能的保留原始特征的特点，同时降低特征的维度。从监督学习的方面来讲，其目的是在于使得分类的错误率尽可能的小，DBN过程的本质其实就是在于如何得到更好的特征表达。例如长短时记忆网络(long short-term memory network)，是基于RNN的进一步延伸。如下图二，LSTM的预测效果对于特定的数据集也是比较理想的。

图二 LSTM对于Mackey-Glass的1000步预测

原始的RNN的隐藏层只有一个状态，这个状态参数对于短期的输入非常的敏感，如果我们再增加一个状态，让它来保存长期的状态，那么问题就迎刃而解了。这就是长短时记忆网络。例如Reservoir computing模型，通常reservoir有很多节点组成，且节点的连接时稀疏的，因为节点之间会形成很多的循环，所以该模型也是递归神经网络，中间层的矩阵是随机生成的而且生成之后就保持不变，因此真正需要训练的只有输出层，这也使它比传统的机器学习方法快得多。该方法，从有限的并发系统状态测量中推导出动态系统的状态作为时间的函数是一个很有实用价值的重要问题。实现这一目标的方案称为“观察者”。考虑这样一种情况，即系统的某个模型不可用或不够精确，但是所需状态变量的“训练”时间序列数据在短时间内可用，并且不断地测量有限数量的其他系统变量。

图三 RNN网络图

2017年提出了一个解决这个问题的方法，使用神经元样单元的网络，即所谓的“水库计算机”。该方法已经发现了先前方法对于短时数据的不敏感，不适用的局限性，不断寻求对于短时数据的突破。以上的这些方法，都已经被强烈的运用到机器学习来获得系统的重建和动态预测。然而，这些系统模型，都是基于神经网络框架，更加依赖于可靠的用于训练的数据长度，因此以上这些具有代表性的方法，只有当训练集包含了足够大量的训练数据的时候，参数才能够不断的完善，最终的预测效果才会更有效。因此，这些方法，在面对数据集不足，即短时数据时，变得非常的鸡肋。而且在我看来，不去寻找更加高效的模型，而是纯粹的通过大量的数据堆砌训练，也不是非常的可取。

对于高维数据，为了能有效的处理高维数据，通常总会采用降维技术。降维技术主要是应用于特征取出。1996年提出了一种方法，利用自举样本、两种不同的分类规则、对混合数据的逻辑回归和线性判别分析、连续或分类以及随机选择解释变量来构建单个预测因子，当时这个方法被应用于构建心衰患者的短期事件风险评分。

对于现实世界中，非线性数据是普遍存在的。非线性的数据结果往往具有以下的特点，数据之间没有对应的关系，通常是一对多的数据结构或者是多对多的网络结构。非线性科学的迅猛发展始于1963年洛仑兹发表的论文《决定论非周期流》。1961年，美国气象学家Edward Lorenz提出了一个简单的大气数学模型，并试图用计算机进行求解。他发现，只要计算程序的起始条件（温度、气压等）稍有变化，最终就会产生完全不同的天气状态。这清楚地表明了因果性的不成立（后来这一事实被称为蝴蝶效应）。这个现象的发现深刻地揭示了非线性系统的共同性质、基本特征和运动规律。非线性动力学理论为我们描述非线性复杂系统的特征提供了一种独立于模型的语言。非线性动力学分析方法为诸如心脏电活动之类的复杂的生理系统的研究开辟了途径，指出了方向。

一般情况下，我们使用相空间，来描述一个高维数据的动态特征。在一个假想的空间中建立起系统状态和假想空间中的点的一一对应关系，就可以构建出所谓的相空间。用状态变量支撑起的抽象空间。对一个确定性系统的描述就是对它在相空间或者状态空间的性质的描述。一个相空间就是一个坐标系统，其坐标轴由所研究的系统的独立状态变量决定。对于相空间的展开，也有很多的学问。需要从相空间图上来选择合适的延时。观察相空间图，如果延时过小，相空间图将压缩在对角线附近；如果延时过大，相空间图将发生畸变；如果延时适当，相空间图将充分展开。随着对相空间研究的广泛深入，2011年，非线性状态空间的广利理论提出了。该理论基于原始的非线性相空间的研究，进一步的证明了多元嵌入，即使用多个时间序列以及滞后的嵌入的更一般的情况，并展示了如何利用多个时间序列及其滞后来构建嵌入。这些定理为在实际应用中更加广泛的使用状态空间重构的方法铺平了道路。在我看来，因为实际应用中可能无法获得长时间的时间序列，因此可以以阶乘的方式创建多个不同的原始态嵌入，从而更充分的利用耦合的非冗余性。

通常在一个典型的高维非线性系统中，存在大量彼此相互作用的变量；然而，在一个瞬间，相位滞后的一个动态稳定通常因为损耗被驱使成低维子空间。因此，这个状态空间技术，基于嵌入算法（embedding theorem），使我们从一个观察到的系统中的时间序列数据中重建一个低维吸引子成为可能。如图一，运用延迟理论，可以重构出相空间并且能保留原始动态信息。

图四洛伦兹系统的各变量变换

在上图四中，A图为原始的洛伦兹变化图，B图是通过单变量及其延迟构建出来的相空间，很明显的可以看出以然保留了原始系统的动态特征，即有两个吸引子。而B图却没有很好的保留，由此看来，洛伦兹非线性系统中，对于参数的选择是敏感的，因此参数选择也是非常有讲究的。

在基于非线性系统、相空间重构、延迟嵌入理论以及广义嵌入理论的理论基础上，使我们从一个观察到的系统中的时间序列数据中重建一个低维吸引子成为可能。因此，随机分布嵌入框架结构(RDE)被提出了。RDE框架，依赖于，通过n维时间序列的数据，两种三维的吸引子可以被重建出来，并且认为这种重建出来后的系统，保留了原始系统的动态特性。

如图五，假定有一个观察到的n维的随机变量，从该n维的数据中，随机取出一个一维的变量作为靶变量，通过延迟嵌入理论的延迟嵌入，构建出一个三维的相空间M，M被称为低维空间的延迟吸引子；再从该n维系统中，随机抽取m个靶变量，利用广义嵌入理论，构建出三维相空间N，N被称为低维空间的非延迟吸引子。通过一定的数学函数以及证明，可以发现，延迟吸引子和非延迟吸引子之间存在着某种函数关系，并且延迟吸引子和非延迟吸引子都保留了原始系统的动态特征。因此，提供了一个准确预测高维多变量系统的思路，通过部分的数据，可以得到两个吸引子之间的函数关系，就可以知道非延迟到延迟之间的变换。之后，就可以利用非延迟嵌入理论，构建出非延迟吸引子，再利用这个函数关系，就可以得出延迟过后的数据，这种延迟其实就是一段时间之后的数据，即可以通过随机选择出的现时数据可以预测的一段时间之后的数据，实现预测。

图五 RDE的主要框架图

延迟吸引子M和非延迟吸引子N之间可以互相转换的有效性，是基于嵌入理论，理论上低维层面上延迟吸引子和非延迟吸引子能够以不同的方式保留原始的整个系统的动态信息。同时还应该注意降维的维度选择，通常选择为3，也可以根据实际情况选择。一般情况下维度要远低于初始维度。基于嵌入理论，湍流动态系统中的奇异吸引子的相空间是可以被重建出来的。

对于延迟吸引子M和非延迟吸引子N之间的互相转换，即利用某个函数可以将N转化为M，在RDE的文献中使用的是高斯过程回归方法(GPR)，使用高斯过程回归，是使用高斯过程先验对数据进行分析的非参数模型。如下图六，是我做的一个简单的小实验，使用的就是高斯过程回归来拟合一些散点图。

图六高斯过程回归的拟合图

从多个变量的非延迟吸引子到单个靶变量的延迟吸引子所利用的嵌入理论，揭示了重建的吸引子，由于是微分同胚的，所谓的微分同胚即微分同胚映射，指的是从原始相空间到重构相空间是微分同胚的，重构相空间中保留了原始吸引子的拓扑学性质和几何不变量，因此可以在重构的相空间中研究系统的动力学行为。

因为从非延迟吸引子到延迟吸引子，非延迟吸引子里面的变量是随机选择的，也就是说，一个n维变量，从中选择m维变量构成非延迟吸引子的相空间，是有Cnm个的，也就是说最后的结果也有Cnm个，这个时候我们可以得到每一种预测值出现的概率，因此通过t检验，可以选择概率最大的值来作为最终的预测值，每一个随即嵌入都被视为是一个特征，因此最终的预测值被估算成所选择特征的聚合平均值。如图七，最终可以得到随即嵌入预测值的概率分布。并且，研究证明，多个随机变量的预测要比单个随机变量的预测提供更多的信息。该思想可以追溯到2003年的文献，可以通过随即特征子集来提升分类算法的精度。

RDE算法通过很多数据来证明算法的预测精度。通过非线性的90维耦合洛伦兹系统的预测，能够发现预测的结果确实比较拟合。预测的结果如下图八。

实验通过分析了很多数据集，例如通过给综合数据添加噪声，高维非线性洛伦兹系统，ISCAM模型的20﹡20的螺旋模式，现实世界中的模型，如基因数据集中五个探针的一步预测、日本某地区的天气预测、心血管疾病入院治疗的一维预测、风速数据等数据，进一步证明RDE算法对于短时高维数据预测的有效性和可靠性。

接下来的工作是学习非线性系统中的经典理论，并应用在自己的课题中。理解RDE中的数学理论，基于脑电信号的预测，分析RDE算法中维度、概率密度函数、时间间隔、虚假临界点嵌入维数、歪斜度与极限值等参数的选择。

对于将RDE应用于课题，有部分疑问。其一，RDE是基于整个动态系统，动态系统之间一般都包含各个维度的相互作用，是否生理电信号之间也存在着某种相互作用？例如脑电信号采集的各个通道，各个导联，是否可以理解成不同的维度。其二，RDE算法对于未来长时间的预测是否可靠？譬如应用在癫痫脑电信号的预测中，由于发病并不一定是立即的，可能在正常和发病之间的间期很长，RDE是否还能精确预测还需要继续实验。

图七 RDE算法的框架图

图八耦合洛伦兹系统的RDE预测结果

【本文所有图片来源论文与网络】

随机分布嵌入使短时高维序列可预测相关推荐

随机分布嵌入（RDE）框架详解附代码
介绍研究了好一阵子马欢飞老师在PNAS上发的文章,下面附上个人的研究心得与代码与大家讨论. 在基于非线性系统的理论基础上,延迟嵌入理论以及广义嵌入理论等相空间重构的理论基础上,观察者便有可能从一个观 ...
使用mnist数据集_使用MNIST数据集上的t分布随机邻居嵌入（t-SNE）进行降维
使用mnist数据集 It is easy for us to visualize two or three dimensional data, but once it goes beyond thr ...
机器学习基础---降维方法---T分布随机近邻嵌入(TSNE)推导
T-SNE(T-Stochastic Neighbor Embedding) 核心思想: 对无监督聚类问题: PCA目的是在样本空间内找到子空间,以变换矩阵W对样本矩阵XXX实现原空间到子空间的映射, ...
随机邻域嵌入_图嵌入（Graph embedding）综述
最近在学习Embedding相关的知识的时候看到了一篇关于图嵌入的综述,觉得写的不错便把文章中的一部分翻译了出来.因自身水平有限,文中难免存在一些纰漏,欢迎发现的知友在评论区中指正. 目录一.图嵌入 ...
随机邻域嵌入_[读综述] 图嵌入的应用
[读综述] 图嵌入的应用论文原文:Graph Embedding Techniques, Applications, and Performance: A Survey (图嵌入技术.应用与性能:综 ...
地图点随机分布均匀_英国标准协会(BSI)推荐的三坐标测点分布策略
在使用三坐标测量机进行测量并且评价形位公差时,首先要做的就是根据图纸要求,测量对应特征,使用对应基准特征,建立坐标系. 为了达到测量的目的,每种特征在数学上均定义了最少测点数(如下图所示),例如两点定 ...
随机邻域嵌入_「论文阅读」-学习用于通勤流嵌入的地理上下文嵌入
论文地址:https://ojs.aaai.org//index.php/AAAI/article/view/5425 0x00 引言本文章题为"用于通勤流预测的地理上下文嵌入学习&quo ...
Silverlight实用窍门系列：28.Silverlight制作随机分布雷达扫描点，模拟雷达扫描图之被扫描设备【附带源码实例】...
实际项目中,我们模拟一个监控多台电脑的雷达扫描图效果.我们假设发现了很多台设备,这些设备具有CPU使用率这个属性,在雷达扫描的时候,如果CPU的值高于90则报警为红色. 本节实例建立在上一节的基础之上 ...
Greenplum 分布键 distribute hash分布和随机分布
Greenplum是分布式系统,创建表时需要指定分布键,目的是为了数据能够平均分布到各个段,所以选择分布键十分重要,选择错了会导致数据不一致. 分布方式: Hash分布:按分布键对数据列进行hash取 ...

随机分布嵌入使短时高维序列可预测

【Randomly Distributed Embedding Making Short-term High-dimensional Data Predictable】的阅读与感悟。

随机分布嵌入使短时高维序列可预测相关推荐

最新文章

热门文章