基于BiGRU-Attention网络的新型冠状病毒肺炎疫情预测学习记录

**摘要：**对新型冠状病毒肺炎疫情的准确预测能为疫情防控政策的制定提供重要依据，为此提出基于双向门控循环单元（ＢｉＧＲＵ）和注意力机制（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）的预测模型。考虑到新冠肺炎每日新增确诊人数的时序特性和非线性，采用了一种ＢｉＧＲＵ网络，以减小计算代价并充分利用前、后向数据信息；同时引入注意力机制解决信息过载问题，以提高计算效率和预测精度。

引言

为什么要做这个方向？

截至２０２１年４月１日，根据世界实时统计数据（Ｗｏｒｌｄｏｍｅｔｅｒｓ）显示，全球新型冠状病毒肺炎（简称“新冠肺炎”，ＣＯＶＩＤ－１９）累计确诊病例超过１２９４３万例，疫情形势十分严峻。对新冠肺炎新增确诊人数的有效预测能为疫情防控政策的制定提供重要参考。

他人的努力成果

近年来，深度学习方法在数据挖掘和分析预测等领域表现优异，它能使模型更加贴合数据，并且计算速度快、误差小、预测结果更加准确，
其中循环神经网络（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，ＲＮＮ）模型在新冠肺炎疫情预测中取得了一定效果［５］。但是，ＲＮＮ网络中越靠后的节点对于前面节点的感知能力越低，在处理长时间序列时存在严重的梯度消失问题，因此长短期记忆（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）网络应运而生。Ｒａｓｊｉｄ等利用Ｓａｖｉｔｚｋｙ－Ｇｏｌａｙ滤波器和ＬＳＴＭ网络模型来预测印度尼西亚的新冠病毒感染人数和死亡人数，实验对比结果显示，ＬＳＴＭ神经网络模型预测值与时间序列数据保持一致，预测效果更好。Ｃｈｉｍｍｕｌａ等［７］基于ＬＳＴＭ网络预测了加拿大ＣＯＶＩＤ－１９疫情的发展趋势和停止扩散的大致时间。赵永翼等采用ＬＳＴＭ网络对新冠肺炎新增确诊、现有确诊、治愈、死亡和累计确诊人数进行序列分析和预测，其精度较高。Ｓｈａ－ｈｉｄ等［９］对比研究了ＬＳＴＭ、双向长短期记忆网络（ＢｉＬＳＴＭ）、支持向量机（ＳＶＭ）等模型在预测新冠肺炎未来病例数量上的表现，指出ＢｉＬＳＴＭ网络具有较好的鲁棒性和准确性。

指出他人不足，提出我的方法

ＬＳＴＭ网络虽然解决了较长时间序列预测中的梯度消失问题，但计算量较为庞大。门控循环单元（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ，ＧＲＵ）网络是ＬＳＴＭ网络的优化，其模型结构更加简单，计算代价更小，收敛性也更好，但ＧＲＵ网络只能单向处理数据，因此只能依靠过去时刻的数据来进行预测［１０］。双向门控循环单元（ＢｉＧＲＵ）网络是由前向和后向两个神经网络构成，能获取某一时刻前、后两个方向的数据信息并加以利用，使得预测值更加接近真实值。
另外，根据人类选择性视觉的研究发现，人们在观察目标时往往会集中注意力关注重要信息，而抑制对其他无用信息的关注。深度学习的注意力机制（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）借鉴了人类视觉注意力机制，其本质上是从众多信息中挑选出对于当前任务更加有用的信息，这不仅提升了模型处理数据的效率，同时保证了预测结果的准确性。
基于以上分析，本文提出一种基于ＢｉＧＲＵ和注意力机制的网络模型（ＢｉＧＲＵ－Ａｔｔｅｎｔｉｏｎ）进行新冠肺炎新增确诊人数预测。ＢｉＧＲＵ不仅适用于新冠肺炎疫情数据的时序特性和非线性，而且可解决ＧＲＵ网络只能单向处理数据的问题。注意力机制能够自适应地选择出最相关的输入数据，集中计算资源处理更重要的任务，可解决疫情
预测计算量庞大、预测结果不精确等问题。本文最后通过实际的新冠肺炎数据集进行算法验证。

模型方法介绍

ＢｉＧＲＵ网络

针对所研究的新冠肺炎新增确诊人数的预测，鉴于数据集时间跨度大，属于较长时间数据序列，如果能同时利用某日前、后一段时间内的新增
确诊人数信息，将会有效提升预测效果。
ＢｉＧＲＵ网络结构如图１所示，其由输入层、前向隐藏层、后向隐藏层和输出层构成。输入层包含输入数据，在每一时刻将数据同时传递给前
向隐藏层和后向隐藏层，即数据同时流向两个方向相反的ＧＲＵ网络，输出层的输出序列由这两个ＧＲＵ共同决定。

假设ｘｔ为ｔ时刻的输入向量，ＧＲＵ网络的计算过程表示如下：

式中：ｚｔ和ｒｔ代表更新门和重置门；ｈ^～ｔ代表候选隐藏层状态；ｈｔ－１和ｈｔ分别代表ｔ－１和ｔ时刻的隐藏层状态；Ｗ和Ｕ为权重；ｂ为偏置；σ 代表Ｓｉｇｍｏｉｄ函数。
ＢｉＧＲＵ网络结构的数学表达式如下：

注意力机制

在人工神经网络中，随着模型参数的增多，模型的表达能力也会变强，同时模型的信息量也会变得庞大，这会带来信息过载的问题。在神经网络模型中引入注意力机制能够分配一系列的权重参数，使得模型集中资源关注关键信息，降低对于低相关性信息的关注度，这样就可以解决信息过载的问题，从而提高算法效率。注意力机制结构如图２所示。

注意力机制会依据信息的重要程度分配权重参数，即注意力值。注意力值的计算步骤为：首先计算输入信息的注意力分布情况，得到注意力得分函数；然后通过归一化指数函数（ｓｏｆｔｍａｘ）对注意力得分函数进行数值转换，根据权重系数进行加权求和。
设神经网络输入信息为Ｈ＝［ｈ１，ｈ２，…，ｈＮ］，其中Ｎ是输入信息的个数。用ｈｍ表示输入信息向量，ｈｔ表示用于查找关键信息的查询向量，通过ｓｏｆｔｍａｘ函数进行归一化处理，将原始计算分值转化成所有权重之和为１的概率分布，更加突出重要元素的权重，公式如下：

式中：αｍ表示第ｍ个输入信息被取到的概率，由所有αｍ构成的概率向量即为注意力分布；注意力函数ｓ（ｈ_ｍ，ｈ_ｔ）有以下几种形式：

式（９）～式（１２）中：Ｗ、Ｕ和ｖ是神经网络中可学
习的参数；ｄ是输入信息的维度。
注意力函数的作用是计算两个向量之间的相似度，没有固定的形式，以上几种计算方式较为常见，在实际中应根据具体任务选择模型，本文选用
加性模型。
最后将所有输入信息的概率汇总，以加权平均的方式求和，得到注意力Ｖ值，公式如下：

提出我们自己的模型

这一章节与上面的模型方法是其改进或组合，一般而言我们都是在前面解决模型的基础，然后提出我们的组合改进方法，此时我们可以另起一个章节，也可以沿用上一章节。

基于ＢｉＧＲＵ－Ａｔｔｅｎｔｉｏｎ的新冠肺炎疫情预测方法

考虑到需要深度挖掘和利用所获取的新冠肺炎统计数据中的相关信息，本文采用了ＢｉＧＲＵ的结构。不过在使用ＢｉＧＲＵ对有限的时间序列数据提取信息时容易出现过拟合现象，最终影响到模型的预测效果，为此在网络中加入了Ｄｒｏｐ－ｏｕｔ层。对每个时间步都使用相同的Ｄｒｏｐｏｕｔ掩码，使得网络可以沿着时间正确地传播学习误差。Ｄｒｏｐｏｕｔ在一定程度上避免了部分权重对网络模型的过度影响，减少了模型的偏差，避免了复杂神经网络模型的过拟合情况。另外，在Ｄｒｏｐｏｕｔ层之后采用注意力机制对输出的信息进行权重分配，重点关注有用的信息，以提高模型预测效率。
ＢｉＧＲＵ－Ａｔｔｅｎｔｉｏｎ网络框架如图３所示。基于ＢｉＧＲＵ－Ａｔｔｅｎｔｉｏｎ的新冠肺炎新增确诊人数预测算法步骤如下。

开始做实验了。

实验及结果分析

数据集介绍，对于这种数据集我们需要简单介绍一下，从而保证其有说服力

实验数据来源于美国约翰 · 霍普金斯大学（ＪＨＵ）系统科学与工程中心（ＣＳＳＥ）建立的ＣＯ－ＶＩＤ－１９数据仓库，其中收集了全球各个国家自２０２０年１月２２日以来每日的新冠肺炎新增确诊人数。新增确诊人数能够较为全面地反映疫情的发展态势以及各个国家和地区的疫情防控效果，是影响后续防控政策调整的关键特征参数。通过模型输出的预测数据能够在一定程度上协助判断疫情的发展状况，为疫情防控提供参考。
本次实验采用２０２０年１月２２日至２０２１年３月２１日共４２５天的数据。利用本文提出的ＢｉＧ－ＲＵ－Ａｔｔｅｎｔｉｏｎ模型，分别对英国和美国的每日新增确诊人数进行预测，并与ＬＳＴＭ、ＧＲＵ、ＢｉＧＲＵ这三种目前较为流行的深度学习神经网络模型进行比较。

评价指标

选择以下三种评价指标来检验各个模型的性能，包括均方根误差（ＲＭＳＥ）、平均绝对误差（ＭＡＥ）和正确率（Ａｃｃｕｒａｃｙ）三种，ＲＭＳＥ和ＭＡＥ越小、Ａｃｃｕｒａｃｙ越大，代表模型预测效果越好。

数据预处理

由于新型冠状病毒传染力强，每日新增确诊病例的数据波动性较大，且其中会突然出现一些极高或极低的数据点，这些点在数据中所占比例不大，却会影响到模型的训练过程，因而可将其视为异常值点，需要对数据进行平滑处理。中值滤波对脉冲噪声有良好的滤除作用，特别是在滤除噪声的同时还能够保护信号的边缘，使之不被模糊，这些优良特性是线性滤波等方法
所不具备的在这里插入代码片。此外，中值滤波的算法也比较简单。
本文对输入模型的数据均采用了中值滤波处理，以提高模型训练效果。设置中值滤波的采样点个数为３，图４为中值滤波前、后的输入数
据对比。

参数设置

如前所述，为防止出现过拟合的现象，在ＢｉＧＲＵ网络中加入了Ｄｒｏｐｏｕｔ层，以使部分随机选择出的神经元停止工作。这里设置丢弃比例为０．５；同时，由于数据样本较少，选择将８０％的数据作为训练集，１０％的数据作为验证集，剩余１０％的数据作为测试集。

实验结果分析

一般通过对比实验来表现我模型的优越性
图５所示为英国和美国在２０２０年１月２２日至２０２１年３月２１日期间的每日新冠肺炎新增确诊人数变化情况以及利用四种方法获得的预测结
果。从图５（ａ）可以看出，ＢｉＧＲＵ－Ａｔｔｅｎｔｉｏｎ和
ＢｉＧＲＵ的预测值曲线与真实值曲线更为接近，因此二者比ＧＲＵ、ＬＳＴＭ有更好的预测效果。从曲线的变化来看，英国每日新增确诊人数是波动变化的，这是由于检测病毒的方法、调查人数以及病毒的传播力等都在不断变化，在四种方法中，只有本文提出的ＢｉＧＲＵ－Ａｔｔｅｎｔｉｏｎ模型能够较为明显地体现出新增确诊人数的波动，而另外三种方法得出的预测曲线过于平滑。

由图５（ｂ）可见，使用本文模型对美国新冠肺炎新增确诊人数进行预测
时也可以达到不错的效果，但由于美国各地对疫情防控政策的实施程度以及民众的配合程度等多种原因，新增病例数据波动幅度更大，因而预测的
准确率有所下降。

不同模型预测性能的具体比较如表１所示。

在英国数据集上，本文模型相比于ＬＳＴＭ、ＧＲＵ和ＢｉＧＲＵ，ＲＭＳＥ指标分别下降０．０１０、０．０１１、０．００９，ＭＡＥ分别下降０．００６、０．００８、０．００８，Ａｃｃｕｒａｃｙ指标分别提升０．０７１、０．０７１、０．０３５。在美国数据集上，本文模型相比于ＬＳＴＭ、ＧＲＵ和ＢｉＧＲＵ，ＲＭＳＥ指标分别下降０．００６、０．００２、０．０１２，Ａｃｃｕ－ｒａｃｙ指标分别提升０．０１、０．０３、０．１２１，ＭＡＥ指标与ＧＲＵ模型的相当，但仍然比ＬＳＴＭ和ＢｉＧＲＵ的ＭＡＥ分别下降０．００３和０．０１。由此可知，本文提出的新冠肺炎疫情预测方法比对比方法精度更高。

结语

本文采用ＢｉＧＲＵ－Ａｔｔｅｎｔｉｏｎ深度学习网络模型进行新冠肺炎疫情预测，并利用ＪＨＵＣＳＳＥ建立的新冠肺炎疫情数据集证明了该方法能够以较低的计算代价获得较高的预测精度，和当前比较流行的深度学习神经网络相比具有明显优势。未来研究可进一步降低深度学习算法的复杂度，提升容错性，开发更加可靠的深度学习模型，以用于新冠肺炎疫情的最终发展趋势预测。