文献：Hao Wang, Junfu Cheng, Chang Liu, Yuanyuan Zhang, Shunfang Hu, Liangyin Chen,Multi-objective reinforcement learning framework for dynamic flexible job shop scheduling problem with uncertain events,Applied Soft Computing,Volume 131,2022,109717,ISSN 1568-4946,https://doi.org/10.1016/j.asoc.2022.109717.

源码可见此处：Multi-Objective Reinforcement Learning Framework for Dynamic Flexible Job Shop Scheduling Problem with Uncertain Events | Code Ocean

1 文献简述

问题：动态多目标柔性作业车间调度问题，涉及工件插入、取消、工件的工序修改；机器增加、更换、故障6个动态事件。

目标：最小化最大完工时间（makespan）、平均机器利用率和平均工件加工延迟率。

解决方式：两个DQN网络和实时处理框架来处理每个动态事件和生成完整的调度方案，此外，采用局部搜索算法进一步优化调度结果。

2 求解框架

实时动态事件处理框架如下图所示，这篇文章采用的是重调度的框架，即首先生成一个初始解，在出现扰动事件后，针对扰动事件将剩余未加工工件进行重排的方式。对各动态事件的处理如可见原文。

注：本人觉得这种方式其实在使用DRL求解静态调度，作者只是通过他的实时动态事件处理框架来营造了一个动态的氛围，未发挥出DRL求解动态调度问题的优势。

多目标深度强化学习的框架。

这篇文章的状态、动作和奖励函数多与清华大学Shu Luo的相似甚至相同。

3 动作状态奖励函数

如状态设计如下，显而易见，有这篇文献状态设计的影子《Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning》（2020/Applied soft computing Journal/Tsinghua University/Shu Luo）

《Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning》原文内容如下：

动作设计为组合规则（FO+FT, FO+ST, FO+TT, SO+FT, SO+ST, SO+TT, TO+FT, TO+ST and TO+TT），其中，各规则的具体描述如下：

（1）工件选择规则（FO,SO,TO）：

FO：优先选择工作完成率较低但交货期早的（文中描述为工件紧急度高的，文中对工件的紧急度进行了分级，根据交货期的早晚分为1、2、3三个不同的紧急度等级）

SO：优先考虑逾期时间长和高度的紧迫感的工件

TO：随机

（2）机器选择规则（FT,TT,ST）:

FT：选择最早可加工工序的机器

ST：选择最早完成该工序加工的机器

TT：随机

其动作是其相关研究的换一种描述。

论文的创新点主要在于，实时动态事件处理框架和多目标深度强化学习的框架，其多目标深度强化学习的框架，但文中对其DRL的算法框架的理论描述相对较少，其框架的具体描述如下：

第一个DQN网络输出值表示目标奖励函数的选择，第二个DQN网络输出值表示具体的调度安排。

文中试图通过第一个DQN网络输出用于指导第二个DQN网络，以得到能到达对应目标。

4 疑惑与质疑

（1）对于整个DRL网络框架的收敛性证明无，第一个DQN网络的输出传入第二个网络作为输入，可见两个DQN网络具有一定的相关性，然而在两个网络损失函数的计算时，分别对两个网络使用均方误差（MSE），网络间无关联。

（2）所设计的奖励函数对三个目标的指导意义是否存在。文中以三个目标为优化目标，而奖励函数为两个，是否可认为也就是优化的两个目标？以两个奖励函数随机选择的方式来优化三个目标，其优化方向是怎样的，是否会造成发散？

（3）规则中采用了随机的方式，是否会使训练具有不确定性，导致最终收敛的结果震荡很大？

（4）局部搜索的加入虽然能进一步提升解的质量，是否浪费了DRL响应优势？

求解带不确定事件的FJSP的多目标强化学习框架相关推荐

求解带时间窗车辆路径问题的多目标模因算法
https://blog.csdn.net/zhangkkit/article/details/105928806
强化学习笔记：策略评估--贝尔曼方程求解示例
目录 1. 前言 2. MDP模型 3. 求解贝尔曼方程 1. 前言策略评估(Policy Evaluation),简单来说,就是针对某个既定的策略求其状态值函数和动作值函数.求得了状态值函数和动作 ...
禁忌搜索算法求解带时间窗的车辆路径问题原理讲解
前言今天为大家带来用禁忌搜索算法(下文简称TS)求解带时间窗的VRP问题(下文简称VRPTW). 下面带大家体会TS的思想.以VRPTW为例,VRPTW的解的形式为每辆车所经过的顾客,比如说有15个 ...
MATLAB实战系列（二十四）-大规模邻域搜索（LNS）求解带时间窗的车辆路径问题（VRPTW）（附matlab源代码）
前言大规模邻域搜索算法(后文统一称为LNS)用MATLAB编写文中的提出的LNS求解带时间窗的车辆路径问题(后文统一称为VRPTW问题)的代码. 本文会带大家详细梳理LNS的基本流程,其实说白了LN ...
惩罚函数外点matlab,禁忌搜索算法求解带时间窗的车辆路径问题(惩罚函数版附MATLAB代码)...
本周应小伙伴要求继续学习TS求VRPTW,不过这次通过使用惩罚约束的形式允许解违反时间窗约束和容量约束,不过要给违反约束的解加以惩罚. 这次我们的目标函数就不单单只有车辆总行驶距离了,还要包括当前解中 ...
React学习笔记二通过柯里化函数实现带参数的事件绑定
class Login extends React.Component {state = {username: '',password: ''}saveFormData = (type) => ...
【路径规划】基于粒子群算法求解带时间窗的车辆路径规划问题VRPTW模型matlab源码
1 模型简介将粒子群算法(PSO)应用于带时间窗车辆路径优化问题(VRPTW),构造车辆路径问题的粒子表达方法,建立了此问题的粒子群算法,并与遗传算法作了比较.实验结果表明,粒子群算法可以快速,有效 ...
【TWVRP】基于matlab粒子群算法求解带时间窗的车辆路径规划问题（总成本最低）【含Matlab源码 2590期】
⛄一.VRP简介 1 VRP基本原理车辆路径规划问题(Vehicle Routing Problem,VRP)是运筹学里重要的研究问题之一.VRP关注有一个供货商与K个销售点的路径规划的情况,可以简 ...
富文本带点击事件的解决方案
富文本带点击事件的解决方案效果分析富文本中要添加点击link事件,需要深入到CoreText里面才能够解决,本人将TTTAttributedLabel进行了封装(封装并不完全,以后会继续完善), ...

求解带不确定事件的FJSP的多目标强化学习框架

1 文献简述

2 求解框架

3 动作状态奖励函数

4 疑惑与质疑

求解带不确定事件的FJSP的多目标强化学习框架相关推荐

最新文章

热门文章