深度强化学习中的对抗攻击和防御

1 引言

该论文是关于深度强化学习对抗攻击的工作。在该论文中，作者从鲁棒优化的角度研究了深度强化学习策略对对抗攻击的鲁棒性。在鲁棒优化的框架下，通过最小化策略的预期回报来给出最优的对抗攻击，相应地，通过提高策略应对最坏情况的性能来实现良好的防御机制。考虑到攻击者通常无法访问在训练环境中，作者提出了一种贪婪攻击算法，该算法试图在不与环境交互的情况下最小化策略的预期回报；另外作者还提出一种防御算法，该算法以最大-最小的博弈来对深度强化学习算法进行对抗训练。在Atari游戏环境中的实验结果表明，作者提出的对抗攻击算法比现有的攻击算法更有效，策略回报率更差。论文中提出的对抗防御算法生成的策略比现有的防御方法对一系列对抗攻击更具鲁棒性。

论文链接：https://arxiv.org/abs/2205.07626v1

2 预备知识

2.1 对抗攻击

给定任何一个样本(x,y)(x,y)(x,y)和神经网络fff，生成对抗样本的优化目标为：
max⁡δL(fθ(x+δ),y)s.t.δ∈G\max\limits_{\delta} L(f_\theta(x+\delta),y)\quad \mathrm{s.t.}\text{ }\delta\in \mathcal{G}δmaxL(fθ(x+δ),y)s.t. δ∈G其中θ\thetaθ是神经网络fff的参数，LLL是损失函数，G\mathcal{G}G是对抗扰动集合，ℓ∞\ell_\inftyℓ∞和ℓ2\ell_2ℓ2是以xxx为中心，ϵ\epsilonϵ为半径的范数约束球。通过PGD攻击生成对抗样本的计算公式如下所示xt+1=Proj∞x,ϵ(xt+α⋅sgn(∇L(fθ(xt),y)))x_{t+1}=\mathrm{Proj}^{x,\epsilon}_{\infty}(x_t+\alpha\cdot \mathrm{sgn}(\nabla L(f_\theta(x_t),y)))xt+1=Proj∞x,ϵ(xt+α⋅sgn(∇L(fθ(xt),y)))其中Proj∞x,ϵ\mathrm{Proj}_\infty^{x,\epsilon}Proj∞x,ϵ表示的是投影操作，如果输入在范数球外，则将输入投影到以xxx中心，ϵ\epsilonϵ为半径的ℓ∞\ell_\inftyℓ∞球上，α\alphaα表示的是PGD攻击的单步扰动大小。

2.2 强化学习和策略梯度

一个强化学习问题可以被描述为一个马尔可夫决策过程。马尔可夫决策过程又可以被定义为一个(S,A,P,r,γ)(\mathcal{S},\mathcal{A},\mathcal{P},r,\gamma)(S,A,P,r,γ)的五元组，其中S\mathcal{S}S表示的是一个状态空间，A\mathcal{A}A表示的是一个动作空间，P:S×A×S→R\mathcal{P}:\mathcal{S}\times\mathcal{A}\times \mathcal{S}\rightarrow \mathbb{R}P:S×A×S→R表示的是状态转移概率，rrr表示的是奖励函数，γ\gammaγ表示的是折扣因子。强学学习的目标是去学习一个参数策略分布a∼πθ(⋅∣s)a\sim \pi_\theta(\cdot | s)a∼πθ(⋅∣s)使得价值函数最大化
max⁡θVπθ(s0),Vπθ(s0)=Est≥1∼P,at≥0∼π[∑t=0∞γtr(st,at)∣s0,πθ]\max\limits_{\theta}V_{\pi_{\theta}}(s_0),\quad V_{\pi_\theta}(s_0)=\mathbb{E}_{s_{t \ge 1} \sim \mathcal{P},a_{t \ge 0} \sim \pi}\left[\sum\limits_{t=0}^\infty \gamma^t r(s_t,a_t)|s_0,\pi_\theta \right]θmaxVπθ(s0),Vπθ(s0)=Est≥1∼P,at≥0∼π[t=0∑∞γtr(st,at)∣s0,πθ]其中s0s_0s0表示的是初始状态。强学学习包括评估动作值函数Qπ(s,a)=Est≥1∼P,at≥1∼π[∑t=0∞γtr(st,at)∣s0=a,a0=a,π]Q_\pi(s,a)=\mathbb{E}_{s_{t\ge 1}\sim \mathcal{P},a_{t\ge 1}\sim \pi}\left[\sum\limits_{t=0}^\infty\gamma^t r(s_t,a_t)|s_0=a,a_0=a,\pi\right]Qπ(s,a)=Est≥1∼P,at≥1∼π[t=0∑∞γtr(st,at)∣s0=a,a0=a,π]以上公式描述了在状态sts_tst执行ata_tat后服从策略π\piπ的数学期望。由定义可知值函数和动作值函数满足如下关系Vπ(s)=∑aπ(a∣s)Qπ(s,a)V_\pi(s)=\sum\limits_{a}\pi(a|s)Q_\pi(s,a)Vπ(s)=a∑π(a∣s)Qπ(s,a)为了便于表示，作者主要关注的是离散动作空间的马尔可夫过程，但是所有的算法和结果都可以直接应用于连续的设定。

3 论文方法

深度强化学习策略的对抗攻击和防御是建立在是鲁棒优化PGD的框架之上的max⁡θVπθδ(s0)Vπθδ(s0)=min⁡δEst≥1∼P,at≥0∼πθδ[∑t=0∞γtr(st,at)∣s0,πθ]\max\limits_{\theta}V_{\pi_\theta^\delta}(s_0)\quad V_{\pi_\theta^\delta}(s_0)=\min\limits_{\delta}\mathbb{E}_{s_{t\ge 1}\sim \mathcal{P},a_{t \ge 0}\sim\pi^{\delta}_\theta}\left[\sum\limits_{t=0}^\infty \gamma^t r(s_t,a_t)|s_0,\pi_\theta\right]θmaxVπθδ(s0)Vπθδ(s0)=δminEst≥1∼P,at≥0∼πθδ[t=0∑∞γtr(st,at)∣s0,πθ]其中πθδ\pi_\theta^\deltaπθδ表示的是πθ(a∣s+δs)\pi_\theta(a|s+\delta_s)πθ(a∣s+δs)，δ\deltaδ表示的是对抗扰动序列集合{δst}t≥1\{\delta_{s_t}\}_{t\ge 1}{δst}t≥1，并且对于所有的t≥0t\ge 0t≥0，满足ℓ∞(δst)≤ϵ\ell_\infty(\delta_{s_t})\le \epsilonℓ∞(δst)≤ϵ。以上公式提供了一个深度强化学习对抗攻击和防御的统一框架。一方面内部最小化优化去寻找对抗扰动序列δ\deltaδ使得当前策略πθ\pi_\thetaπθ做出错误的决策。另一方面外部最大化的目的是找到策略分布参数θ\thetaθ使得在扰动策略下期望回报最大。经过以上对抗攻击和防御博弈，会使得训练过程中的策略参数θ\thetaθ能够更加抵御对抗攻击。
目标函数内部最小化的目的是生成对抗扰动δ\deltaδ，但是对于强化学习算法来说学习得到最优对抗扰动是非常耗时耗力的，而且由于训练环境对攻击者来说是一个黑盒的，所以在该论文中，作者考虑一个实际的设定，即攻击者在不同的状态下去注入扰动。不想有监督学习攻击场景中，攻击者只需要欺骗分类器模型使得它分类出错产生错误的标签；在强化学习的攻击场景中，动作值函数攻击者提供了额外的信息，即小的行为值会导致一个小的期望回报。相应的，作者在深度强化学习中定义了最优对抗扰动如下所示

定义1： 一个在状态sss上最优的对抗扰动δs\delta_sδs能够最小化状态的期望回报
δs∗=arg⁡min⁡δs∑aπθ(a∣s+δs)Qπθ(s,a),s.t.ℓ∞(δs)≤ϵ\delta^{*}_s=\arg\min\limits_{\delta_s}\sum\limits_{a}\pi_\theta(a|s+\delta_s)Q_{\pi_\theta}(s,a),\quad \mathrm{s.t.}\text{ }\ell_\infty(\delta_s)\le \epsilonδs∗=argδsmina∑πθ(a∣s+δs)Qπθ(s,a),s.t. ℓ∞(δs)≤ϵ

需要注意的是优化求解以上公式的是非常棘手的，它需要确保攻击者能够欺骗智能体使得其选择最差的决策行为，然而对于攻击者来说智能体的动作值函数是不可知的，所以无法保证对抗扰动是最优的。以下的定理能够说明如果策略是最优的，最优对抗扰动能够用不通过访问动作值函数的方式被生成

定理1： 当控制策略a∈π(⋅∣s)a \in \pi(\cdot |s)a∈π(⋅∣s)是最优的，动作值函数和策略满足以下关系π(a∣s)∝eQπ(s,a)μs,μs>0,∀a∈A\pi(a|s)\propto e^{\frac{Q_\pi(s,a)}{\mu_s}},\quad \mu_s >0, \forall a\in \mathcal{A}π(a∣s)∝eμsQπ(s,a),μs>0,∀a∈A其中CsC_sCs表示的是策略熵，μs\mu_sμs是一个状态依赖常量，并且当CsC_sCs变化到000的时候，μs\mu_sμs也会随之变为000，进而则有以下公式
δs∗=arg⁡max⁡δs∑a−πθ(a∣s+δs)log⁡πθ(a∣s),s.t.,ℓ∞(δs)≤ϵ\delta^{*}_s=\arg\max\limits_{\delta_s}\sum\limits_{a}-\pi_\theta(a|s+\delta_s)\log \pi_\theta(a|s),\quad \mathrm{s.t.},\text{ }\ell_\infty(\delta_s)\le \epsilonδs∗=argδsmaxa∑−πθ(a∣s+δs)logπθ(a∣s),s.t., ℓ∞(δs)≤ϵ

证明： 当随机策略π(a∣s)\pi(a|s)π(a∣s)达到最优的时候，值函数Vπ(s)V_\pi(s)Vπ(s)也达到了最优，这也就是说，在每个状态sss下，找不到任何其它的行为分布使得值函数Vπ(s)V_\pi(s)Vπ(s)增大。相应的，给定最优的动作值函数Qπ(s,a)Q_\pi(s,a)Qπ(s,a)，可以通过求解约束优化问题获得最优策略π(a∣s)\pi(a|s)π(a∣s)max⁡π(a∣s),a∈A∑a∈Aπ(a∣s)Qπ(s,a)s.t.∑a∈Aπ(a∣s)−1=0π(a∣s)≥0,a∈A−∑a∈Aπ(a∣s)log⁡(π(a∣s))−Cs≥0\begin{aligned}\max\limits_{\pi(a|s),a\in\mathcal{A}}\sum\limits_{a\in \mathcal{A}}\pi(a|s)Q_\pi(s,a)&\\\mathrm{s.t.}\text{ }\sum\limits_{a\in\mathcal{A}}\pi(a|s)-1=0&\\ \pi(a|s)\ge 0,a\in\mathcal{A}&\\ -\sum\limits_{a\in\mathcal{A}}\pi(a|s)\log(\pi(a|s))-C_s\ge 0&\end{aligned}π(a∣s),a∈Amaxa∈A∑π(a∣s)Qπ(s,a)s.t. a∈A∑π(a∣s)−1=0π(a∣s)≥0,a∈A−a∈A∑π(a∣s)log(π(a∣s))−Cs≥0其中第二和第三行表示π\piπ是一个概率分布，最后一行表示策略π\piπ是一个随机策略，根据KKT条件则可以将以上优化问题转化为如下形式：L(π,λ,μ)=−∑a∈Aπ(a∣s)Qπ(s,a)+λ(∑a∈Aπ(a∣s)−1)−∑a∈Aμaπ(a∣s)+μs(Cs+∑a∈Aπ(a∣s)log⁡π(a∣s))∇πL(π,λ,μ)=0∑a∈Aπ(a∣s)−1=0μaπ(a∣s)=0,∀a∈Aμs(Cs+∑a∈Aπ(a∣s)log⁡π(a∣s))=0λ≠0μs≥0,μa≥0,∀a∈A\begin{aligned}L(\pi,\lambda,\mu)=-\sum\limits_{a\in\mathcal{A}}\pi(a|s)Q_{\pi}(s,a)+\lambda\left(\sum\limits_{a\in\mathcal{A}}\pi(a|s)-1\right)&\\-\sum\limits_{a\in\mathcal{A}}\mu_a\pi(a|s)+\mu_s\left(C_s+\sum\limits_{a\in\mathcal{A}}\pi(a|s)\log \pi(a|s)\right)&\\\nabla_\pi L(\pi,\lambda,\mu)=0&\\\sum\limits_{a\in\mathcal{A}}\pi(a|s)-1=0\\\mu_a\pi(a|s)=0,\forall a\in\mathcal{A}&\\\mu_s\left(C_s+\sum\limits_{a\in\mathcal{A}}\pi(a|s)\log \pi(a|s)\right)=0&\\\lambda\ne 0&\\ \mu_s\ge 0,\mu_a \ge 0,\forall a \in \mathcal{A}&\end{aligned}L(π,λ,μ)=−a∈A∑π(a∣s)Qπ(s,a)+λ(a∈A∑π(a∣s)−1)−a∈A∑μaπ(a∣s)+μs(Cs+a∈A∑π(a∣s)logπ(a∣s))∇πL(π,λ,μ)=0a∈A∑π(a∣s)−1=0μaπ(a∣s)=0,∀a∈Aμs(Cs+a∈A∑π(a∣s)logπ(a∣s))=0λ=0μs≥0,μa≥0,∀a∈A其中μ={μa}a∈A∪{μs}\mu=\{\mu_a\}_{a\in\mathcal{A}}\cup\{\mu_s\}μ={μa}a∈A∪{μs}。假定π(a∣s)\pi(a|s)π(a∣s)对于所有的行为a∈Aa\in\mathcal{A}a∈A是正定的，则有−Qπ(s,a)+λ+μs(log⁡π(a∣s)+1)=0-Q_\pi(s,a)+\lambda+\mu_s(\log \pi(a|s)+1)=0−Qπ(s,a)+λ+μs(logπ(a∣s)+1)=0当μs=0\mu_s=0μs=0时，则必有μs>0\mu_s>0μs>0，进而则有对于任意的a∈Aa\in\mathcal{A}a∈A，则有Qπ(s,a)=λQ_\pi(s,a)=\lambdaQπ(s,a)=λ。从而会得到动作值函数和策略的softmax的关π(a∣s)=ZseQπ(s,a)μs\pi(a|s)=Z_se^{\frac{Q_\pi(s,a)}{\mu_s}}π(a∣s)=ZseμsQπ(s,a)其中Zs=e−λ+μsμsZ_s=e^{-\frac{\lambda+\mu_s}{\mu_s}}Zs=e−μsλ+μs，进而则有∑a∈AZseQπ(s,a)μs=1−∑a∈AZseQπ(s,a)μslog⁡ZseQπ(s,a)μs=Cs\begin{aligned}\sum\limits_{a\in\mathcal{A}}Z_se^{\frac{Q_\pi(s,a)}{\mu_s}}=1&\\-\sum\limits_{a\in\mathcal{A}}Z_se^{\frac{Q_\pi(s,a)}{\mu_s}}\log Z_se^{\frac{Q_\pi(s,a)}{\mu_s}}=C_s&&\end{aligned}a∈A∑ZseμsQπ(s,a)=1−a∈A∑ZseμsQπ(s,a)logZseμsQπ(s,a)=Cs将以上的第一个等式带入到第二中，则有−∑a∈Aps(a)log⁡ps(a)=Cs-\sum\limits_{a\in\mathcal{A}}p_s(a)\log p_s(a)=C_s−a∈A∑ps(a)logps(a)=Cs其中ps(a)=eQπ(s,a)μse∑a∈AQπ(s,a)μsp_s(a)=\frac{e^{\frac{Q_\pi(s,a)}{\mu_s}}}{e^{\sum\limits_{a\in \mathcal{A}}\frac{Q_\pi(s,a)}{\mu_s}}}ps(a)=ea∈A∑μsQπ(s,a)eμsQπ(s,a)以上公式中ps(a)p_s(a)ps(a)表示的是一个softmax形式的概率分布，并且它的熵等于CsC_sCs。当CsC_sCs等于000的时候，μs\mu_sμs也变为000。在这种情况下，λ\lambdaλ是要大于000的，则此时ZsZ_sZs等于1e\frac{1}{e}e1。

定理1展示了如果策略是最优的情况下，最优扰动可以通过最大化扰动策略和原始策略的交叉熵来获得。为了讨论的简便，作者将定理1的攻击称之为策略攻击，而且作者使用PGD算法框架去计算最优的策略攻击，具体的算法流程图如下算法1所示。

作者提出的防御对抗扰动的鲁棒优化算法的流程图如下算法2所示，该算法被称之为策略攻击对抗训练。在训练阶段，扰动策略πθδ\pi_\theta^\deltaπθδ被用作去和环境交互，与此同时扰动策略的动作值函数Qπθδ(s,a)Q_{\pi_\theta^\delta}(s,a)Qπθδ(s,a)被估计去帮助策略训练。具体的细节为，首先在训练阶段作者使用策略攻击去生成扰动，即使值函数没有保证被减小。在训练的早期阶段，策略也许跟动作值函数不相关，随着训练的进行，它们会慢慢满足softmax的关系。另一方面作者需要精确评估动作值函数Qπθ(s,a)Q_{\pi_\theta}(s,a)Qπθ(s,a)很难处理，因为轨迹是通过运行受干扰的策略收集的，而使用这些数据估计未受干扰策略的作用值函数可能非常不准确。

使用PPO的优化扰动策略πθ(a∣s+δs)\pi_\theta(a|s+\delta_s)πθ(a∣s+δs)的目标函数为LδCLIP(θ)=Et[min⁡(rt(θ)A^δ(st,at),clip(rt(θ),1−ρ,1+ρ)A^δ(st,at))]L_\delta^{\mathrm{CLIP}}(\theta)=\mathbb{E}_t\left[\min\left(r_t(\theta)\hat{A}_\delta(s_t,a_t),\mathrm{clip}(r_t(\theta),1-\rho,1+\rho)\hat{A}_\delta(s_t,a_t)\right)\right]LδCLIP(θ)=Et[min(rt(θ)A^δ(st,at),clip(rt(θ),1−ρ,1+ρ)A^δ(st,at))]其中rδ(θ)=πθ(at∣st+δst)πθold(at∣st+δst)r^\delta(\theta)=\frac{\pi_\theta(a_t|s_t+\delta_{s_t})}{\pi_{\theta_{\mathrm{old}}(a_t|s_t+\delta_{s_t})}}rδ(θ)=πθold(at∣st+δst)πθ(at∣st+δst)，并且A^δ(s,a)\hat{A}_\delta(s,a)A^δ(s,a)是扰动策略平均函数Aπθδ(s,a)A_{\pi_\theta^\delta}(s,a)Aπθδ(s,a)的一个估计。在实际中，A^δ(s,a)\hat{A}_\delta(s,a)A^δ(s,a)是由方法GAE估计得来的。具体的算法流程图如下图所示。

4 实验结果

如下右侧的三个子图显示了不同攻击扰动的结果。可以发现经过逆向训练的策略和标准策略都能抵抗随机扰动。相反，对抗攻击会降低不同策略的性能。结果取决于测试环境和防御算法，进一步可以发现三种对抗性攻击算法之间的性能差距很小。相比之下，在相对困难的设置环境中，论文作者提出的策略攻击算法干扰的策略产生的回报要低得多。总体而言，论文中提出的策略攻击算法在大多数情况下产生的回报最低，这表明它确实是所有经过测试的对抗攻击算法中效率最高的。

如下图所示显示了不同防御算法以及标准PPO的学习曲线。需要注意的是性能曲线仅表示用于与环境交互的策略的预期回报。在所有的训练算法中，论文中提出的ATPA具有最低的训练方差，因此比其他算法更稳定。另外还能注意到，ATPA的进度比标准PPO慢得多，尤其是在早期训练阶段。这导致了这样一个事实，即在早期的训练阶段，受不利因素干扰会使得策略训练非常不稳定。

下表总结了使用不同算法在不同扰动下的策略预期回报。可以发现经过ATPA训练的策略能够抵抗各种对抗干扰。相比之下，尽管StageWise和DataAugment在某种程度上学会了处理对抗攻击，但它们在所有情况下都不如ATPA有效。

为了进行更广泛的比较，作者还评估了这些防御算法对最有效的策略攻击算法产生的不同程度的对抗干扰的鲁棒性。如下图所示，ATPA再次在所有情况下获得最高分数。此外，ATPA的评估方差远小于StageWise和DataAugment，表明ATPA具有更强的生成能力。

为了达到类似的性能，ATPA需要比标准PPO算法更多的训练数据。作者通过研究扰动策略的稳定性来深入研究这个问题。作者计算了通过在训练过程中间和结束时使用不同随机初始点的PGD执行策略攻击而获得的扰动策略的KL散度值。如下图所示，在没有对抗训练的情况下，即使标准PPO已经收敛，也会不断观察到较大的KL散度值，这表明策略对于使用不同初始点执行PGD所产生的扰动非常不稳定。

下图显示了具有不同初始点的扰动策略的KL散度图，可以发现图中的每个像素表示两个扰动策略的KL散度值，这两个扰动策略通过最大化ATPA算法的核心公式给出。需要注意的是由于KL散度是一个非对称度量，因此这些映射也是不对称的。

5 总结

论文中出现的生词
intractable: 棘手的	equivalent: 等价的
recover: 恢复	contradiction: 矛盾
apparent: 显然的	explicity: 明确
pseudocode: 伪代码