本文针对曼哈顿V2V网络中长期性能，通过结合信息年龄的资源管理进行了优化。通过观察每个时隙的全局网络状态，RSU将为VUE对分配频带并调度包的传输。本文将随机决策过程建模为一个离散时间MDP。技术难题包括：交通信息到达的高移动性和时变性带来的最优控制问题。解法为，首先将原始MDP分解为一系列VUE对的MDP。对于VUE在局部网络状态空间中的部分可观测性和高维诅咒，通过基于LSTM和DQN的算法加以解决。利用该算法，RSU根据部分观测在每个调度时隙以分布式的方式进行最优频带分配和分组调度。

介绍

V2V很重要，但RRM（无线资源管理）是一个问题，有很多人尝试解决，但研究都集中在即使性能优化上，而忽略了网络的动态性，如通信质量和交通信息的时空变化。

MDP被广泛用于V2V网络长期RRM中，有很多人尝试用基于学习的方法加以解决，但都没有考虑车辆的移动性，因为移动性提供了在不同组的VUE对之间共享频率的可能性。【其实这里就和基于重用距离的资源共享相似了】

本文已曼哈顿V2V为场景，设定交通信息时变，结合AoI(信息年龄)对系统长期性能进行了优化，本文主要贡献如下：

将RRM问题建模为单代理MDP，RSU周期性地对频带分配和分组调度进行规划，以优化VUE对的长期性能
为处理VUE对增加带来的决策动作空间过大的问题，将MDP分解
为解决移动性导致局部状态空间大的问题，假设VUE仅可观察部分环境，通过LSTM和DRL手段使用部分观测获取最优行动。算法使用在RSU的离线集中训练，和VUE的分布式测试。

系统描述

网络和信道模型

如上图所示，车辆密度一定，有K个VUE对，共享B个正交频带，时间被分成时隙（每个时隙长 $\tau$ ，用j编号）

信道模型分为三类：LOS，WLOS（两车在临近交叉口l内的垂直道上），NLOS。用 $H^j_k$ 表示信道状态，k表示VUE对的编号，j表示时隙编号。

AoI 的评估

发送端在每个预分配时隙的开端，通过频带将时延敏感信息发送到接收端。用f表示k号VUE对是否在j号时隙分配到了b号频带。

对于数据包到达发送端有一些假设：仅在slot开始时到达（可一次到达多个），不同链路的数据包到达相互独立，以速率 $\lambda$ 均匀分布在时隙上。对于在slot末尾还没发送的数据包，则将其丢弃。

$X_k^j$ 表示k号VUE在j号时隙的数据包到达数量。

f为k号VUE在j号时隙得到的频率分配。VUE对的功率消耗为：

C为干扰，W为频带带宽，\mu为包的尺寸，R为包的数量，

对于上式，我们首先看到括号里面的R是关于 j k 的，即 k 号发送端在 j 号时隙开始时得到的包的数量，然后要看一看在这个时隙系统有没有将频带分配给这个发送端，所以要对频带分配的 indicator f 进行遍历，这个indicator 若按照b展开是一个one-hot，由此就能找到在这个频带上的干扰，进而将：若想将生成的数据包全部传输所需要的功率算出来。

换一个思考角度，若我们现在固定发射功率为最大发射功率 $P_{max}$ ，那么也是根据（4）式，也可以得到在此发射功率下能传输的最大数据包个数为：

因为时间期限丢失数据包的个数为：

对于上式， $F^j_k$ 表示在时隙j ，k 号link是否分配到了任何一条频带

而 X 和 R 都表示对于数据包的个数，区别在于X是等待传输的数据包的个数，R是系统能传输的数据包的个数，两者之差很明显就是丢失数据包的个数啦

下面我们要得到 以j为标号的这段时隙 的AoI评估，AoI与其他指标不同，是一个和时间相关的指标，因此对于 以j为标号的这段时隙 的评估需要在此时隙的末尾处进行（即 以j+1为标号的这段时隙的开始处进行，因此下面A的上角标为j+1）

用 $A_k^j$ 表示时隙 j 的开端时所评估的AoI：

可以看到，若 j时隙的开始时点，其传输数>0，那么就认为j时隙的结束时点，其信息年龄为 $\tau$ ；否则 j时隙的结束时点的信息年龄为开始时点的信息年龄 + $\tau$ 。

对于信息年龄的理解：首先需要知道它是面向 “信息” 而非数据包的，对于同一链路传输的不同数据包，其表示的是不同时点的同一个信息，比如 “t1时刻的链路感知信息、t2时刻的链路感知信息、…”

其次，需要知道AoI的一个通用假设，那就是假设传输时间为0，当发送端在时隙j 发送信息后，立刻就能在接收端接受到此消息，在这种假设下，虽然AoI是评估接收端所收到的信息的新鲜度，但是由于传输时延为0，也可以大致等效为发送端成功发送的最后一个信息的新鲜度。

理解了上面两点后，其实(7)式中还对AoI进行了一个简化，那就是我们可以从(7)中看到AoI肯定为整 $\tau$ 的数，这里其实有一个隐含假设那就是：在时隙j内完成传输的信息，我们认为其是在时隙j开始时完成的传输，因此若在j时隙内完成了传输，在j的末尾（亦或(7)中j+1的开端）的信息年龄度量：观测时点 - 完成传输的时点 = $\tau$

VUE对聚簇

为减轻传输中VUE对间的干扰，根据地理位置将其聚簇，共有G簇。将B个频带分给一簇中的VUE，不同簇间的频带重用。

对于link的位置，将其定义为链路连线的中点。

用高斯相似度矩阵 D 表示地理临近信息，其内容为：

其中 $\xi$ 控制簇的尺寸， $\varrho$ 平衡邻居尺寸的影响。link 根据D进行分组，其分组算法如Algo 1 所示

簇之间的功率为：

问题陈述

本节将结合AoI的RRM问题描述为一个单代理MDP

考虑AoI的RRM

VUE对的本地状态信息表示为 $S_k^j = ((y^j_{k, (vTX)}, y^j_{k,(vRX)}), H^j_k, X^j_k, A^j_k)\in S$ ，包含地理位置，信道状态H，数据包生成数X，AoI A。 $S^j$ 表示全局状态信息， $\pi=(\pi(F), \pi(R))$ 表示控制策略，分别表示频带分配策略和包调度策略。效用函数为：