1 引言

 该论文是关于深度强化学习对抗攻击的工作。在该论文中,作者从鲁棒优化的角度研究了深度强化学习策略对对抗攻击的鲁棒性。在鲁棒优化的框架下,通过最小化策略的预期回报来给出最优的对抗攻击,相应地,通过提高策略应对最坏情况的性能来实现良好的防御机制。考虑到攻击者通常无法访问在训练环境中,作者提出了一种贪婪攻击算法,该算法试图在不与环境交互的情况下最小化策略的预期回报;另外作者还提出一种防御算法,该算法以最大-最小的博弈来对深度强化学习算法进行对抗训练。在Atari游戏环境中的实验结果表明,作者提出的对抗攻击算法比现有的攻击算法更有效,策略回报率更差。论文中提出的对抗防御算法生成的策略比现有的防御方法对一系列对抗攻击更具鲁棒性。

论文链接:https://arxiv.org/abs/2205.07626v1

2 预备知识

2.1 对抗攻击

 给定任何一个样本(x,y)(x,y)(x,y)和神经网络fff,生成对抗样本的优化目标为:
max⁡δL(fθ(x+δ),y)s.t.δ∈G\max\limits_{\delta} L(f_\theta(x+\delta),y)\quad \mathrm{s.t.}\text{ }\delta\in \mathcal{G}δmax​L(fθ​(x+δ),y)s.t. δ∈G其中θ\thetaθ是神经网络fff的参数,LLL是损失函数,G\mathcal{G}G是对抗扰动集合,ℓ∞\ell_\inftyℓ∞​和ℓ2\ell_2ℓ2​是以xxx为中心,ϵ\epsilonϵ为半径的范数约束球。通过PGD攻击生成对抗样本的计算公式如下所示xt+1=Proj∞x,ϵ(xt+α⋅sgn(∇L(fθ(xt),y)))x_{t+1}=\mathrm{Proj}^{x,\epsilon}_{\infty}(x_t+\alpha\cdot \mathrm{sgn}(\nabla L(f_\theta(x_t),y)))xt+1​=Proj∞x,ϵ​(xt​+α⋅sgn(∇L(fθ​(xt​),y)))其中Proj∞x,ϵ\mathrm{Proj}_\infty^{x,\epsilon}Proj∞x,ϵ​表示的是投影操作,如果输入在范数球外,则将输入投影到以xxx中心,ϵ\epsilonϵ为半径的ℓ∞\ell_\inftyℓ∞​球上,α\alphaα表示的是PGD攻击的单步扰动大小。

2.2 强化学习和策略梯度

 一个强化学习问题可以被描述为一个马尔可夫决策过程。马尔可夫决策过程又可以被定义为一个(S,A,P,r,γ)(\mathcal{S},\mathcal{A},\mathcal{P},r,\gamma)(S,A,P,r,γ)的五元组,其中S\mathcal{S}S表示的是一个状态空间,A\mathcal{A}A表示的是一个动作空间,P:S×A×S→R\mathcal{P}:\mathcal{S}\times\mathcal{A}\times \mathcal{S}\rightarrow \mathbb{R}P:S×A×S→R表示的是状态转移概率,rrr表示的是奖励函数,γ\gammaγ表示的是折扣因子。强学学习的目标是去学习一个参数策略分布a∼πθ(⋅∣s)a\sim \pi_\theta(\cdot | s)a∼πθ​(⋅∣s)使得价值函数最大化
max⁡θVπθ(s0),Vπθ(s0)=Est≥1∼P,at≥0∼π[∑t=0∞γtr(st,at)∣s0,πθ]\max\limits_{\theta}V_{\pi_{\theta}}(s_0),\quad V_{\pi_\theta}(s_0)=\mathbb{E}_{s_{t \ge 1} \sim \mathcal{P},a_{t \ge 0} \sim \pi}\left[\sum\limits_{t=0}^\infty \gamma^t r(s_t,a_t)|s_0,\pi_\theta \right]θmax​Vπθ​​(s0​),Vπθ​​(s0​)=Est≥1​∼P,at≥0​∼π​[t=0∑∞​γtr(st​,at​)∣s0​,πθ​]其中s0s_0s0​表示的是初始状态。强学学习包括评估动作值函数Qπ(s,a)=Est≥1∼P,at≥1∼π[∑t=0∞γtr(st,at)∣s0=a,a0=a,π]Q_\pi(s,a)=\mathbb{E}_{s_{t\ge 1}\sim \mathcal{P},a_{t\ge 1}\sim \pi}\left[\sum\limits_{t=0}^\infty\gamma^t r(s_t,a_t)|s_0=a,a_0=a,\pi\right]Qπ​(s,a)=Est≥1​∼P,at≥1​∼π​[t=0∑∞​γtr(st​,at​)∣s0​=a,a0​=a,π]以上公式描述了在状态sts_tst​执行ata_tat​后服从策略π\piπ的数学期望。由定义可知值函数和动作值函数满足如下关系Vπ(s)=∑aπ(a∣s)Qπ(s,a)V_\pi(s)=\sum\limits_{a}\pi(a|s)Q_\pi(s,a)Vπ​(s)=a∑​π(a∣s)Qπ​(s,a)为了便于表示,作者主要关注的是离散动作空间的马尔可夫过程,但是所有的算法和结果都可以直接应用于连续的设定。

3 论文方法

 深度强化学习策略的对抗攻击和防御是建立在是鲁棒优化PGD的框架之上的max⁡θVπθδ(s0)Vπθδ(s0)=min⁡δEst≥1∼P,at≥0∼πθδ[∑t=0∞γtr(st,at)∣s0,πθ]\max\limits_{\theta}V_{\pi_\theta^\delta}(s_0)\quad V_{\pi_\theta^\delta}(s_0)=\min\limits_{\delta}\mathbb{E}_{s_{t\ge 1}\sim \mathcal{P},a_{t \ge 0}\sim\pi^{\delta}_\theta}\left[\sum\limits_{t=0}^\infty \gamma^t r(s_t,a_t)|s_0,\pi_\theta\right]θmax​Vπθδ​​(s0​)Vπθδ​​(s0​)=δmin​Est≥1​∼P,at≥0​∼πθδ​​[t=0∑∞​γtr(st​,at​)∣s0​,πθ​]其中πθδ\pi_\theta^\deltaπθδ​表示的是πθ(a∣s+δs)\pi_\theta(a|s+\delta_s)πθ​(a∣s+δs​),δ\deltaδ表示的是对抗扰动序列集合{δst}t≥1\{\delta_{s_t}\}_{t\ge 1}{δst​​}t≥1​,并且对于所有的t≥0t\ge 0t≥0,满足ℓ∞(δst)≤ϵ\ell_\infty(\delta_{s_t})\le \epsilonℓ∞​(δst​​)≤ϵ。以上公式提供了一个深度强化学习对抗攻击和防御的统一框架。一方面内部最小化优化去寻找对抗扰动序列δ\deltaδ使得当前策略πθ\pi_\thetaπθ​做出错误的决策。另一方面外部最大化的目的是找到策略分布参数θ\thetaθ使得在扰动策略下期望回报最大。经过以上对抗攻击和防御博弈,会使得训练过程中的策略参数θ\thetaθ能够更加抵御对抗攻击。
 目标函数内部最小化的目的是生成对抗扰动δ\deltaδ,但是对于强化学习算法来说学习得到最优对抗扰动是非常耗时耗力的,而且由于训练环境对攻击者来说是一个黑盒的,所以在该论文中,作者考虑一个实际的设定,即攻击者在不同的状态下去注入扰动。不想有监督学习攻击场景中,攻击者只需要欺骗分类器模型使得它分类出错产生错误的标签;在强化学习的攻击场景中,动作值函数攻击者提供了额外的信息,即小的行为值会导致一个小的期望回报。相应的,作者在深度强化学习中定义了最优对抗扰动如下所示

定义1: 一个在状态sss上最优的对抗扰动δs\delta_sδs​能够最小化状态的期望回报
δs∗=arg⁡min⁡δs∑aπθ(a∣s+δs)Qπθ(s,a),s.t.ℓ∞(δs)≤ϵ\delta^{*}_s=\arg\min\limits_{\delta_s}\sum\limits_{a}\pi_\theta(a|s+\delta_s)Q_{\pi_\theta}(s,a),\quad \mathrm{s.t.}\text{ }\ell_\infty(\delta_s)\le \epsilonδs∗​=argδs​min​a∑​πθ​(a∣s+δs​)Qπθ​​(s,a),s.t. ℓ∞​(δs​)≤ϵ

需要注意的是优化求解以上公式的是非常棘手的,它需要确保攻击者能够欺骗智能体使得其选择最差的决策行为,然而对于攻击者来说智能体的动作值函数是不可知的,所以无法保证对抗扰动是最优的。以下的定理能够说明如果策略是最优的,最优对抗扰动能够用不通过访问动作值函数的方式被生成

定理1: 当控制策略a∈π(⋅∣s)a \in \pi(\cdot |s)a∈π(⋅∣s)是最优的,动作值函数和策略满足以下关系π(a∣s)∝eQπ(s,a)μs,μs>0,∀a∈A\pi(a|s)\propto e^{\frac{Q_\pi(s,a)}{\mu_s}},\quad \mu_s >0, \forall a\in \mathcal{A}π(a∣s)∝eμs​Qπ​(s,a)​,μs​>0,∀a∈A其中CsC_sCs​表示的是策略熵,μs\mu_sμs​是一个状态依赖常量,并且当CsC_sCs​变化到000的时候,μs\mu_sμs​也会随之变为000,进而则有以下公式
δs∗=arg⁡max⁡δs∑a−πθ(a∣s+δs)log⁡πθ(a∣s),s.t.,ℓ∞(δs)≤ϵ\delta^{*}_s=\arg\max\limits_{\delta_s}\sum\limits_{a}-\pi_\theta(a|s+\delta_s)\log \pi_\theta(a|s),\quad \mathrm{s.t.},\text{ }\ell_\infty(\delta_s)\le \epsilonδs∗​=argδs​max​a∑​−πθ​(a∣s+δs​)logπθ​(a∣s),s.t., ℓ∞​(δs​)≤ϵ

证明: 当随机策略π(a∣s)\pi(a|s)π(a∣s)达到最优的时候,值函数Vπ(s)V_\pi(s)Vπ​(s)也达到了最优,这也就是说,在每个状态sss下,找不到任何其它的行为分布使得值函数Vπ(s)V_\pi(s)Vπ​(s)增大。相应的,给定最优的动作值函数Qπ(s,a)Q_\pi(s,a)Qπ​(s,a),可以通过求解约束优化问题获得最优策略π(a∣s)\pi(a|s)π(a∣s)max⁡π(a∣s),a∈A∑a∈Aπ(a∣s)Qπ(s,a)s.t.∑a∈Aπ(a∣s)−1=0π(a∣s)≥0,a∈A−∑a∈Aπ(a∣s)log⁡(π(a∣s))−Cs≥0\begin{aligned}\max\limits_{\pi(a|s),a\in\mathcal{A}}\sum\limits_{a\in \mathcal{A}}\pi(a|s)Q_\pi(s,a)&\\\mathrm{s.t.}\text{ }\sum\limits_{a\in\mathcal{A}}\pi(a|s)-1=0&\\ \pi(a|s)\ge 0,a\in\mathcal{A}&\\ -\sum\limits_{a\in\mathcal{A}}\pi(a|s)\log(\pi(a|s))-C_s\ge 0&\end{aligned}π(a∣s),a∈Amax​a∈A∑​π(a∣s)Qπ​(s,a)s.t. a∈A∑​π(a∣s)−1=0π(a∣s)≥0,a∈A−a∈A∑​π(a∣s)log(π(a∣s))−Cs​≥0​​其中第二和第三行表示π\piπ是一个概率分布,最后一行表示策略π\piπ是一个随机策略,根据KKT条件则可以将以上优化问题转化为如下形式:L(π,λ,μ)=−∑a∈Aπ(a∣s)Qπ(s,a)+λ(∑a∈Aπ(a∣s)−1)−∑a∈Aμaπ(a∣s)+μs(Cs+∑a∈Aπ(a∣s)log⁡π(a∣s))∇πL(π,λ,μ)=0∑a∈Aπ(a∣s)−1=0μaπ(a∣s)=0,∀a∈Aμs(Cs+∑a∈Aπ(a∣s)log⁡π(a∣s))=0λ≠0μs≥0,μa≥0,∀a∈A\begin{aligned}L(\pi,\lambda,\mu)=-\sum\limits_{a\in\mathcal{A}}\pi(a|s)Q_{\pi}(s,a)+\lambda\left(\sum\limits_{a\in\mathcal{A}}\pi(a|s)-1\right)&\\-\sum\limits_{a\in\mathcal{A}}\mu_a\pi(a|s)+\mu_s\left(C_s+\sum\limits_{a\in\mathcal{A}}\pi(a|s)\log \pi(a|s)\right)&\\\nabla_\pi L(\pi,\lambda,\mu)=0&\\\sum\limits_{a\in\mathcal{A}}\pi(a|s)-1=0\\\mu_a\pi(a|s)=0,\forall a\in\mathcal{A}&\\\mu_s\left(C_s+\sum\limits_{a\in\mathcal{A}}\pi(a|s)\log \pi(a|s)\right)=0&\\\lambda\ne 0&\\ \mu_s\ge 0,\mu_a \ge 0,\forall a \in \mathcal{A}&\end{aligned}L(π,λ,μ)=−a∈A∑​π(a∣s)Qπ​(s,a)+λ(a∈A∑​π(a∣s)−1)−a∈A∑​μa​π(a∣s)+μs​(Cs​+a∈A∑​π(a∣s)logπ(a∣s))∇π​L(π,λ,μ)=0a∈A∑​π(a∣s)−1=0μa​π(a∣s)=0,∀a∈Aμs​(Cs​+a∈A∑​π(a∣s)logπ(a∣s))=0λ​=0μs​≥0,μa​≥0,∀a∈A​​其中μ={μa}a∈A∪{μs}\mu=\{\mu_a\}_{a\in\mathcal{A}}\cup\{\mu_s\}μ={μa​}a∈A​∪{μs​}。假定π(a∣s)\pi(a|s)π(a∣s)对于所有的行为a∈Aa\in\mathcal{A}a∈A是正定的,则有−Qπ(s,a)+λ+μs(log⁡π(a∣s)+1)=0-Q_\pi(s,a)+\lambda+\mu_s(\log \pi(a|s)+1)=0−Qπ​(s,a)+λ+μs​(logπ(a∣s)+1)=0当μs=0\mu_s=0μs​=0时,则必有μs>0\mu_s>0μs​>0,进而则有对于任意的a∈Aa\in\mathcal{A}a∈A,则有Qπ(s,a)=λQ_\pi(s,a)=\lambdaQπ​(s,a)=λ。从而会得到动作值函数和策略的softmax的关π(a∣s)=ZseQπ(s,a)μs\pi(a|s)=Z_se^{\frac{Q_\pi(s,a)}{\mu_s}}π(a∣s)=Zs​eμs​Qπ​(s,a)​其中Zs=e−λ+μsμsZ_s=e^{-\frac{\lambda+\mu_s}{\mu_s}}Zs​=e−μs​λ+μs​​,进而则有∑a∈AZseQπ(s,a)μs=1−∑a∈AZseQπ(s,a)μslog⁡ZseQπ(s,a)μs=Cs\begin{aligned}\sum\limits_{a\in\mathcal{A}}Z_se^{\frac{Q_\pi(s,a)}{\mu_s}}=1&\\-\sum\limits_{a\in\mathcal{A}}Z_se^{\frac{Q_\pi(s,a)}{\mu_s}}\log Z_se^{\frac{Q_\pi(s,a)}{\mu_s}}=C_s&&\end{aligned}a∈A∑​Zs​eμs​Qπ​(s,a)​=1−a∈A∑​Zs​eμs​Qπ​(s,a)​logZs​eμs​Qπ​(s,a)​=Cs​​​​将以上的第一个等式带入到第二中,则有−∑a∈Aps(a)log⁡ps(a)=Cs-\sum\limits_{a\in\mathcal{A}}p_s(a)\log p_s(a)=C_s−a∈A∑​ps​(a)logps​(a)=Cs​其中ps(a)=eQπ(s,a)μse∑a∈AQπ(s,a)μsp_s(a)=\frac{e^{\frac{Q_\pi(s,a)}{\mu_s}}}{e^{\sum\limits_{a\in \mathcal{A}}\frac{Q_\pi(s,a)}{\mu_s}}}ps​(a)=ea∈A∑​μs​Qπ​(s,a)​eμs​Qπ​(s,a)​​以上公式中ps(a)p_s(a)ps​(a)表示的是一个softmax形式的概率分布,并且它的熵等于CsC_sCs​。当CsC_sCs​等于000的时候,μs\mu_sμs​也变为000。在这种情况下,λ\lambdaλ是要大于000的,则此时ZsZ_sZs​等于1e\frac{1}{e}e1​。

 定理1展示了如果策略是最优的情况下,最优扰动可以通过最大化扰动策略和原始策略的交叉熵来获得。为了讨论的简便,作者将定理1的攻击称之为策略攻击,而且作者使用PGD算法框架去计算最优的策略攻击,具体的算法流程图如下算法1所示。

 作者提出的防御对抗扰动的鲁棒优化算法的流程图如下算法2所示,该算法被称之为策略攻击对抗训练。在训练阶段,扰动策略πθδ\pi_\theta^\deltaπθδ​被用作去和环境交互,与此同时扰动策略的动作值函数Qπθδ(s,a)Q_{\pi_\theta^\delta}(s,a)Qπθδ​​(s,a)被估计去帮助策略训练。具体的细节为,首先在训练阶段作者使用策略攻击去生成扰动,即使值函数没有保证被减小。在训练的早期阶段,策略也许跟动作值函数不相关,随着训练的进行,它们会慢慢满足softmax的关系。另一方面作者需要精确评估动作值函数Qπθ(s,a)Q_{\pi_\theta}(s,a)Qπθ​​(s,a)很难处理,因为轨迹是通过运行受干扰的策略收集的,而使用这些数据估计未受干扰策略的作用值函数可能非常不准确。

 使用PPO的优化扰动策略πθ(a∣s+δs)\pi_\theta(a|s+\delta_s)πθ​(a∣s+δs​)的目标函数为LδCLIP(θ)=Et[min⁡(rt(θ)A^δ(st,at),clip(rt(θ),1−ρ,1+ρ)A^δ(st,at))]L_\delta^{\mathrm{CLIP}}(\theta)=\mathbb{E}_t\left[\min\left(r_t(\theta)\hat{A}_\delta(s_t,a_t),\mathrm{clip}(r_t(\theta),1-\rho,1+\rho)\hat{A}_\delta(s_t,a_t)\right)\right]LδCLIP​(θ)=Et​[min(rt​(θ)A^δ​(st​,at​),clip(rt​(θ),1−ρ,1+ρ)A^δ​(st​,at​))]其中rδ(θ)=πθ(at∣st+δst)πθold(at∣st+δst)r^\delta(\theta)=\frac{\pi_\theta(a_t|s_t+\delta_{s_t})}{\pi_{\theta_{\mathrm{old}}(a_t|s_t+\delta_{s_t})}}rδ(θ)=πθold​(at​∣st​+δst​​)​πθ​(at​∣st​+δst​​)​,并且A^δ(s,a)\hat{A}_\delta(s,a)A^δ​(s,a)是扰动策略平均函数Aπθδ(s,a)A_{\pi_\theta^\delta}(s,a)Aπθδ​​(s,a)的一个估计。在实际中,A^δ(s,a)\hat{A}_\delta(s,a)A^δ​(s,a)是由方法GAE估计得来的。具体的算法流程图如下图所示。

4 实验结果

 如下右侧的三个子图显示了不同攻击扰动的结果。可以发现经过逆向训练的策略和标准策略都能抵抗随机扰动。相反,对抗攻击会降低不同策略的性能。结果取决于测试环境和防御算法,进一步可以发现三种对抗性攻击算法之间的性能差距很小。相比之下,在相对困难的设置环境中,论文作者提出的策略攻击算法干扰的策略产生的回报要低得多。总体而言,论文中提出的策略攻击算法在大多数情况下产生的回报最低,这表明它确实是所有经过测试的对抗攻击算法中效率最高的。

 如下图所示显示了不同防御算法以及标准PPO的学习曲线。需要注意的是性能曲线仅表示用于与环境交互的策略的预期回报。在所有的训练算法中,论文中提出的ATPA具有最低的训练方差,因此比其他算法更稳定。另外还能注意到,ATPA的进度比标准PPO慢得多,尤其是在早期训练阶段。这导致了这样一个事实,即在早期的训练阶段,受不利因素干扰会使得策略训练非常不稳定。

 下表总结了使用不同算法在不同扰动下的策略预期回报。可以发现经过ATPA训练的策略能够抵抗各种对抗干扰。相比之下,尽管StageWise和DataAugment在某种程度上学会了处理对抗攻击,但它们在所有情况下都不如ATPA有效。

 为了进行更广泛的比较,作者还评估了这些防御算法对最有效的策略攻击算法产生的不同程度的对抗干扰的鲁棒性。如下图所示,ATPA再次在所有情况下获得最高分数。此外,ATPA的评估方差远小于StageWise和DataAugment,表明ATPA具有更强的生成能力。

 为了达到类似的性能,ATPA需要比标准PPO算法更多的训练数据。作者通过研究扰动策略的稳定性来深入研究这个问题。作者计算了通过在训练过程中间和结束时使用不同随机初始点的PGD执行策略攻击而获得的扰动策略的KL散度值。如下图所示,在没有对抗训练的情况下,即使标准PPO已经收敛,也会不断观察到较大的KL散度值,这表明策略对于使用不同初始点执行PGD所产生的扰动非常不稳定。

 下图显示了具有不同初始点的扰动策略的KL散度图,可以发现图中的每个像素表示两个扰动策略的KL散度值,这两个扰动策略通过最大化ATPA算法的核心公式给出。需要注意的是由于KL散度是一个非对称度量,因此这些映射也是不对称的。

5 总结

论文中出现的生词
intractable: 棘手的 equivalent: 等价的
recover: 恢复 contradiction: 矛盾
apparent: 显然的 explicity: 明确
pseudocode: 伪代码

深度强化学习中的对抗攻击和防御相关推荐

  1. 任奎:人工智能算法安全浅析——深度学习中的对抗攻击与防御

    2020-05-19 19:52:46 任奎 随着计算机产业发展带来的计算性能与处理能力的大幅提高,人工智能在音视频识别.自然语言处理和博弈论等领域得到了广泛应用.在此背景下,确保人工智能的核心--深 ...

  2. 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

    No.26 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  3. 深度强化学习中的好奇心

    本文为 AI 研习社编译的技术博客,原标题 : Curiosity in Deep Reinforcement Learning 作者 | Michael Klear 翻译 | 凝决2018 校对 | ...

  4. 深度强化学习中的episode、epoch、batch-size、iteration

    深度强化学习中的episode.epoch.batch-size.iteration batch_size iteration epoch episode batch_size 即批大小,如果把全部数 ...

  5. 深度强化学习中带有阴影的曲线是怎么画的?

    记录学习一下: 1.强化学习论文里的训练曲线是用什么画的?如何计算相关变量 - 深度强化学习实验室 2. 论文中画带标准差阴影的曲线图:seaborn.lineplot()_条件反射104的博客-CS ...

  6. 深度强化学习中Double DQN算法(Q-Learning+CNN)的讲解及在Asterix游戏上的实战(超详细 附源码)

    需要源码和环境搭建请点赞关注收藏后评论区留下QQ~~~ 一.核心思想 针对DQN中出现的高估问题,有人提出深度双Q网络算法(DDQN),该算法是将强化学习中的双Q学习应用于DQN中.在强化学习中,双Q ...

  7. 深度强化学习中的泛化

    Overfitting in Supervised Learning 机器学习是一门学科,其中给定了一些训练数据\环境,我们希望找到一个优化目标的模型,但其目的是在训练期间从未见过的数据上表现出色.通 ...

  8. 论智能问答中的对抗攻击及防御策略

    大数据产业创新服务媒体 --聚焦数据 · 改变商业 编者按 深度学习模型应用广泛,但其自身有一定的"脆弱性",即模型输入的微小改动,在不影响人判断的情况下,可能使模型的输出出错,这 ...

  9. 百分点认知智能实验室出品:智能问答中的对抗攻击及防御策略

    编者按 深度学习模型应用广泛,但其自身有一定的"脆弱性",即模型输入的微小改动,在不影响人判断的情况下,可能使模型的输出出错,这个过程被称为对模型的对抗攻击.针对对抗攻击的研究,早 ...

  10. 深度强化学习中利用Q-Learngin和期望Sarsa算法确定机器人最优策略实战(超详细 附源码)

    需要源码和环境搭建请点赞关注收藏后评论区留下QQ~~~ 一.Q-Learning算法 Q-Learning算法中动作值函数Q的更新方向是最优动作值函数q,而与Agent所遵循的行为策略无关,在评估动作 ...

最新文章

  1. python中for循环缩进_Python减少循环层次和缩进的技巧分析
  2. am335x linux内核烧写_实时 Linux 抖动分析 Step by step
  3. 《技术的本质》2月24日part1
  4. 待发箱outbox空间已满
  5. ubuntu 14.04 如何设置静态ip
  6. explain分析执行计划
  7. go编译so win10_windows搭建Go语言交叉编译环境
  8. react笔记组件属性传递机制(四)
  9. 教你微软原版win7下载安装教程
  10. python html5 便利店收银系统_便利店收银系统使用教程
  11. 19、【易混淆概念集】第十一章3 应急计划 VS 弹回计划 实施风险应对 监督风险
  12. 安卓python编辑器-10 个平板电脑上的 Python 编辑器
  13. 2022年六一儿童节
  14. 月盈利百万的茶馆是如何通过一套商业模式起家?方案分享!
  15. springboot项目下关于网站访问量UV统计
  16. JavaWeb-RequestResponse
  17. 他们用折纸解决了两个数学难题,还折出了天文望远镜!!
  18. MintUI 组件和Mui
  19. matlab 正则化表达式_Matlab-------regexp正则表达式
  20. 退出VM VirtualBox独占的键盘和鼠标

热门文章

  1. 【C语言典例】——day8:猜名次
  2. 【微信公众号】6、SpringBoot整合WxJava创建自定义菜单
  3. MCtalk对话尚德机构:与教研和大数据结合的AI,才是真功夫
  4. libero-soc许可证申请和环境配置
  5. 物联网芯片+区块链底层融合:紫光展锐开创产业升级新思路
  6. 普适计算机技术特征的事例,普适计算、物联网、云计算与未来社会信息化需求分析...
  7. 考研:研究生考试(五天学完)之《线性代数与空间解析几何》研究生学霸重点知识点总结之第四课欧氏空间
  8. 使用 AndroidSocketClient 库建立 SSL 安全链接
  9. win10桌面图标变成白色文件
  10. 2019 面试系列 - 简历