求解带不确定事件的FJSP的多目标强化学习框架
文献:Hao Wang, Junfu Cheng, Chang Liu, Yuanyuan Zhang, Shunfang Hu, Liangyin Chen,Multi-objective reinforcement learning framework for dynamic flexible job shop scheduling problem with uncertain events,Applied Soft Computing,Volume 131,2022,109717,ISSN 1568-4946,https://doi.org/10.1016/j.asoc.2022.109717.
源码可见此处:Multi-Objective Reinforcement Learning Framework for Dynamic Flexible Job Shop Scheduling Problem with Uncertain Events | Code Ocean
1 文献简述
问题:动态多目标柔性作业车间调度问题,涉及工件插入、取消、工件的工序修改;机器增加、更换、故障6个动态事件。
目标:最小化最大完工时间(makespan)、平均机器利用率和平均工件加工延迟率。
解决方式:两个DQN网络和实时处理框架来处理每个动态事件和生成完整的调度方案,此外,采用局部搜索算法进一步优化调度结果。
2 求解框架
实时动态事件处理框架如下图所示,这篇文章采用的是重调度的框架,即首先生成一个初始解,在出现扰动事件后,针对扰动事件将剩余未加工工件进行重排的方式。对各动态事件的处理如可见原文。
注:本人觉得这种方式其实在使用DRL求解静态调度,作者只是通过他的实时动态事件处理框架来营造了一个动态的氛围,未发挥出DRL求解动态调度问题的优势。
多目标深度强化学习的框架。
这篇文章的状态、动作和奖励函数多与清华大学Shu Luo的相似甚至相同。
3 动作状态奖励函数
如状态设计如下,显而易见,有这篇文献状态设计的影子《Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning》(2020/Applied soft computing Journal/Tsinghua University/Shu Luo)
《Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning》原文内容如下:
动作设计为组合规则(FO+FT, FO+ST, FO+TT, SO+FT, SO+ST, SO+TT, TO+FT, TO+ST and TO+TT),其中,各规则的具体描述如下:
(1)工件选择规则(FO,SO,TO):
FO:优先选择工作完成率较低但交货期早的(文中描述为工件紧急度高的,文中对工件的紧急度进行了分级,根据交货期的早晚分为1、2、3三个不同的紧急度等级)
SO:优先考虑逾期时间长和高度的紧迫感的工件
TO:随机
(2)机器选择规则(FT,TT,ST):
FT:选择最早可加工工序的机器
ST:选择最早完成该工序加工的机器
TT:随机
其动作是其相关研究的换一种描述。
论文的创新点主要在于,实时动态事件处理框架和多目标深度强化学习的框架,其多目标深度强化学习的框架,但文中对其DRL的算法框架的理论描述相对较少,其框架的具体描述如下:
第一个DQN网络输出值表示目标奖励函数的选择,第二个DQN网络输出值表示具体的调度安排。
文中试图通过第一个DQN网络输出用于指导第二个DQN网络,以得到能到达对应目标。
4 疑惑与质疑
(1) 对于整个DRL网络框架的收敛性证明无,第一个DQN网络的输出传入第二个网络作为输入,可见两个DQN网络具有一定的相关性,然而在两个网络损失函数的计算时,分别对两个网络使用均方误差(MSE),网络间无关联。
(2)所设计的奖励函数对三个目标的指导意义是否存在。文中以三个目标为优化目标,而奖励函数为两个,是否可认为也就是优化的两个目标?以两个奖励函数随机选择的方式来优化三个目标,其优化方向是怎样的,是否会造成发散?
(3)规则中采用了随机的方式,是否会使训练具有不确定性,导致最终收敛的结果震荡很大?
(4)局部搜索的加入虽然能进一步提升解的质量,是否浪费了DRL响应优势?
求解带不确定事件的FJSP的多目标强化学习框架相关推荐
- 求解带时间窗车辆路径问题的多目标模因算法
https://blog.csdn.net/zhangkkit/article/details/105928806
- 强化学习笔记:策略评估--贝尔曼方程求解示例
目录 1. 前言 2. MDP模型 3. 求解贝尔曼方程 1. 前言 策略评估(Policy Evaluation),简单来说,就是针对某个既定的策略求其状态值函数和动作值函数.求得了状态值函数和动作 ...
- 禁忌搜索算法求解带时间窗的车辆路径问题原理讲解
前言 今天为大家带来用禁忌搜索算法(下文简称TS)求解带时间窗的VRP问题(下文简称VRPTW). 下面带大家体会TS的思想.以VRPTW为例,VRPTW的解的形式为每辆车所经过的顾客,比如说有15个 ...
- MATLAB实战系列(二十四)-大规模邻域搜索(LNS)求解带时间窗的车辆路径问题(VRPTW)(附matlab源代码)
前言 大规模邻域搜索算法(后文统一称为LNS)用MATLAB编写文中的提出的LNS求解带时间窗的车辆路径问题(后文统一称为VRPTW问题)的代码. 本文会带大家详细梳理LNS的基本流程,其实说白了LN ...
- 惩罚函数外点matlab,禁忌搜索算法求解带时间窗的车辆路径问题(惩罚函数版 附MATLAB代码)...
本周应小伙伴要求继续学习TS求VRPTW,不过这次通过使用惩罚约束的形式允许解违反时间窗约束和容量约束,不过要给违反约束的解加以惩罚. 这次我们的目标函数就不单单只有车辆总行驶距离了,还要包括当前解中 ...
- React学习笔记二 通过柯里化函数实现带参数的事件绑定
class Login extends React.Component {state = {username: '',password: ''}saveFormData = (type) => ...
- 【路径规划】基于粒子群算法求解带时间窗的车辆路径规划问题VRPTW模型matlab源码
1 模型简介 将粒子群算法(PSO)应用于带时间窗车辆路径优化问题(VRPTW),构造车辆路径问题的粒子表达方法,建立了此问题的粒子群算法,并与遗传算法作了比较.实验结果表明,粒子群算法可以快速,有效 ...
- 【TWVRP】基于matlab粒子群算法求解带时间窗的车辆路径规划问题(总成本最低)【含Matlab源码 2590期】
⛄一.VRP简介 1 VRP基本原理 车辆路径规划问题(Vehicle Routing Problem,VRP)是运筹学里重要的研究问题之一.VRP关注有一个供货商与K个销售点的路径规划的情况,可以简 ...
- 富文本带点击事件的解决方案
富文本带点击事件的解决方案 效果 分析 富文本中要添加点击link事件,需要深入到CoreText里面才能够解决,本人将TTTAttributedLabel进行了封装(封装并不完全,以后会继续完善), ...
最新文章
- Ubuntu 14.04 64bit上安装Scrapy
- virtualbox虚拟机ubuntu和宿主机xp文件件共享方法
- 字典数(前缀树)的实现
- 【LaTeX】E喵的LaTeX新手入门教程(3)数学公式
- 手机安装pem_抓包神器Charles的配置安装与弱网测试,你会了吗?
- Centos7.0-安装docker
- LeetCode(109):有序链表转换二叉搜索树
- fread和fwrite函数
- 数据库中的DbUtils
- 利用计算机提出算法分析问题,应用计算机计算不可积类型的积分算法分析
- 什么样的博文才能上首页呢?『博客使用技巧』
- 剑指offer——面试题37:两个链表的第一个公共结点
- Hadoop1.1.2开发笔记(一)
- 进程调度优先数 c语言,进程调度--动态优先数法(C语言实现)
- 网易云音乐encseckey算法php,[PHP]网易云音乐params计算及直链提取
- 单片机实验报告实验七:定时器实验
- 【2021LaTeX模板分享】数学建模竞赛国赛
- 中国余数定理c语言pta,密码学基础——辗转相除法,费马小定理,欧拉定理,裴蜀定理,中国剩余定理...
- pubwin2009服务端 修改系统时间方法
- html 用户列表,用户列表.html
热门文章
- 啥水平?谷歌程序员:我用东北方言编程
- 5.12 按照多个条件进行组合排序 [原创Excel教程]
- ICPC训练联盟2021寒假冬令营(6)_2021.01.25_笔记
- 【转】广告拦截(含360极速浏览器)
- 眼睛里10年的“肉芽”长大了,这究竟是怎么回事?
- 2022年前端面试题整理,持续更新中
- 微型计算机的什么接口主要作为打印机接口,微机接口技术及应用_习题集(含答案)...
- 央视揭秘“微商传销”:通过朋友圈炫富发展下线
- Unity九宫格切割图片 2D Sprite
- 七日之都账号服务器,永远的7日之都服务器数据互通吗_永远的7日之都iOS和安卓能一起玩吗_玩游戏网...