《Transformers with Attentive Federated Aggregation for Time Series Stock Forecasting》2023.3.17组会论文记录

第二次组会了，实验室同门看的都是时间序列股票预测，我也想找这个方向的，这次从知乎上搜到了如何查找会议论文，链接网址放这防止丢了《如何找到高质量的会议期刊》
从里面找了个CCF的C类会议，从里面找了个链接就去搜Time-Series Forecasting和Stock，很幸运找到了一篇2023International Conference on Information Networking 的会议，还是今年新发表的。

01简介

背景
近期股票市场预测受到关注，由于股票的不确定性、复杂性和非平稳性，传统机器学习方法很难应对非平稳的股票预测问题。Transformer作为最强大的序列建模架构，将位置编码与多头自注意力机制结合，实现了并行化和从长序列中提取语义特征的效果，还可以捕获顺序数据之间的远程依赖关系和交互。但应用于股票预测的适应性有限，传统的训练方案在模型过度拟合、数据稀缺和隐私问题方面表现不足。
意义
利用分布式机器学习技术和联邦学习（Federated Learning）方法，将分布式客户端模型的本地计算更新与分散的私有数据聚合实现全局模型的协作学习，可以克服数据稀缺和隐私挑战，但是联邦变压器对时间序列问题的适应仍有限，本文为探索联邦变压器是否对时间序列预测任务有效开展工作，通过将时间的向量表示嵌入到输入序列中来保存时间序列数据的时间信息，开发出一种基于多头自注意力机制的时间序列转换器，以有效预测全球股票市场收盘价的未来趋势。
最新且高效的时间序列预测转换器
在Transformer的基础上延伸出来的几个如下：Informer、Autoformer、FEDformer、ESTformer、Pyraformer这几个模型我都还没有看，当时最基础的Transformer都没看，当时和闺蜜说这个，闺蜜推荐我去看这个论文**《Attention Is All Your Need》**当时我没太在意，想着没时间了，就看了看摘要，没想到第二天同门汇报就是这个论文，太巧了，这也正好给我一个发言的思路了哈哈哈哈。Attention Is All Your Need论文精度
**苦于我这个模型是联邦模型，一开始我还不太理解，我们几个都尝试跑了这个模型的实验，但都出现了bug,后来放弃了，当然这个模型肯定也要放弃了。后来开组会和学长学姐讨论才知道，这个联邦意味着要多台设备才能行，活该我跑不出来…**最懒的跑实验改bug了，唉，我就不适合IT吧,就是个科研废物。

02模型

1.变换器编码器Transformer Encoder

自我注意层（SA）将输入分离成三个向量。查询Q，密钥K，和价值V。在股票数据的情况下，(Q, K, V )值代表价格、成交量和时间特征。通过将每个Q、K和V通过一个单独的线性层Linear，可以得到每个矩阵的单独线性变换。

MatMul:通过取Q和K矩阵的点乘来计算注意力权重，
Scale:用注意力权重除以之前向量的维度。计算出点积后，应用softmax函数生成一组加起来为1的权重。
多头自我注意层（MHSA）通过串联h个单SA层的注意权重来实现的。

每个变压器编码器包括两个子层：一个MHSA层和一个前馈层，每个层都有一个用于增加初始输入的剩余连接。前馈层由两个密集层组成，中间有一个ReLU激活每个子层的输出都被归一化，以稳定和加快训练速度。在全局平均池化层和最后的全连接层之前，堆积了N层变压器编码器。ReLU激活函数的快速介绍。

2.时间向量嵌入Time2V ector Embeddings（算是一个创新点吧）

Time2V ec是一种与模型无关的矢量表示，它以矢量表示的形式对时间特征进行编码。在转化器编码器之前将Time2V ec层初始化为模型中的时间嵌入层。输入序列与时间嵌入相结合，被送入变换器编码器作为自我注意层（SA）的初始输入。

3.联邦学习Attentive Federated Learning

![在这里插入图片描述](https://img-blog.csdnimg.cn/30962e80e1bd413e856cf090ce980c8c.png#pic_center
联邦学习（FL）使机器学习算法在分布于多个分散设备的私有数据上进行协作训练。
最早和最常见的FL框架是联合平均法（FedAvg），它是一个迭代的模型平均化过程，在每个迭代中包含四个关键步骤。
改进：为了提高在低数据状态下的性能，我们将本模型与一个关注的联合学习（FedAtt）方案结合起来。FedAtt在模型聚合的过程中引入了一个关注机制。

区别：FedAvg通过加权平均法进行汇总，FedAtt 通过根据局部和全局参数之间的相似性计算的注意力权重进行聚合。

03实验

三个基线：
FedAtt:本文所提出的带有周到联邦聚合（FedAtt）的时间序列预测变换器
SOLO:每个客户自行训练其本地模型
FedAvg:所有客户通过加权平均机制协作训练一个联合模型

数据来源：雅虎财经网站的各种股票数据
每个数据点有六个特征：日期、股票的交易量、开盘价、收盘价、最高价、最低价
图5是对 "国际商业机器公司（IBM）"的验证和测试集的预测结果的可视化。在这组数据集中所有方法的预测趋势都比较准确。特点：IBM数据集从1962年开始，数据点充足。
图6提供了对 "T-Mobile美国公司（TMUS）"的验证和测试集的预测结果的可视化。
图6表明，我们提出的FedAtt方案优于其他基线。特点：TMUS数据集从2007年开始，数据点较少。
这里说明，当数据点的数量较少时，不足以训练一个对数据要求很高的变换器，而FedAtt在注意聚集机制的帮助下优于其他方法，也就是说适合处理数据量少的，解决了股票价格历史数据不公开，无法获得足够量数据的问题

04总结

提出了用于时间序列股票预测的周到的联合转换器，证明了转换器可以捕捉到序列数据之间的长距离依赖和相互作用的事实。
探讨了我们提出的时间序列转换器在FL场景中的有效性，以提高预测的准确性，同时应对数据的异质性、稀缺性和隐私问题。
利用贴心的联合学习（FedAtt）方案来实现我们模型的协作训练，利用不同企业的分布式历史股票数据。在各种股票市场数据上的实证结果表明，与分散的本地训练（SOLO）和联合平均（FedAvg）基线相比，我们提出的方案具有优势。
考虑到我们在医疗和金融领域的数据密集型时间序列应用的未来方向，联合变换器对时间序列预测任务是有效的。

组会点评：这次论文没有和其他模型进行比较，论文中没有写明论文的机构，也没标明创新点，有些地方说明不够详细，看来C类会议还是不太行，篇幅太少了，算上文献索引一共6页，唉，又是科研路上的一次踩雷经历，而且这个很新，似乎也没有人看这个论文，在CSDN上搜都没有人写它的论文总结哈哈哈哈，看看算了继续探索吧…
下面打算把基础模型都看一遍
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
https://zhuanlan.zhihu.com/p/361060481
Autoformer-时序模型的突破
Pyraformer
ETSformer没找到CSDN，等看完上面的就去找这个论文自己看。