博士论文答辩||基于深度强化学习的复杂作业车间调度问题研究

获取更多资讯，赶快关注上面的公众号吧！

文章目录

学生时代终将落下帷幕，新的开始等待我继续努力，加油吧，不辜自我，不负时代，感激之情溢于言表，高兴的，难过的，都值得铭记，因为这是我的青春！

完整PPT可扫码关注公众号后，回复“PPT”获取下载链接！

摘要

近年来出现的云计算、物联网、泛在信息、大数据技术等，以及信息物理融合系统（Cyber-Physical Systems, CPS）、工业4.0和中国制造2025的提出，将有力促进我国制造业的转型升级。企业已越来越多地采用物联网技术对车间现场进行实时监控，各种类型的数据在硬件技术条件基础上能够做到实时采集处理。一方面，数据采集与分析使得系统行为刻画得更加精准和透明及可视化，为调度系统做出正确响应提供准确的数据来源；另一方面，在数据实时处理下车间状态瞬息万变，这对调度系统的计算效率提出了更高的需求。调度系统需要针对现场各类突发事件进行“实时”处理，做出自适应调整，兼顾求解时间与求解质量，实现生产现场的闭环控制。目前调度领域采用的调度算法以启发式和元启发式算法为主，其中启发式算法虽然高效、简单、易用，但是因其短视性导致求解质量并不理想，且针对不同问题、不同目标，启发式算法性能千差万别，难于在不同调度环境下普遍适用；而元启发式算法虽然通过迭代搜索保证了求解质量，但是其搜索时间较长，并且其与问题结构存在强烈相关性，一旦问题结构发生变化，元启发式算法也需要进行重新设计，因而实时性和泛化性较差。所以，亟需综合启发式和元启发式各自的优点，在新的方法和理论基础上进行调度算法设计。

本文的研究目标是面向智能制造车间构造一套兼顾求解时间与求解质量的强化学习算法，该算法能够针对车间的各种突发事件进行有效响应，短时间内给出满意调度方案。在综述了强化学习的发展现状和在调度求解中的应用现状后，提出了一个基于深度强化学习的调度策略优化设计框架，基于此框架，从研究问题由作业车间调度到柔性作业车间调度、约束条件由少量简单到大量复杂、训练算法由值函数法和策略梯度法到混合并行算法这三个方面逐层递进展开研究，深入地研究了基于深度强化学习的模糊作业车间调度、基于端到端深度强化学习的柔性作业车间调度和基于并行深度强化学习的柔性作业车间两级调度等关键问题。主要研究内容如下：

论文首先针对复杂作业车间调度问题，对传统析取图模型进行了约束扩展，增加了工序相关性约束、工序物流周转时间、工序准备时间、机床偏好和资源日历等表达，建立了赋时三维析取图扩展模型。提出了基于深度强化学习的统一调度框架，该框架以建立的赋时三维析取图模型为调度环境，定义了调度方案所需要的输入数据和生成方法，调度代理不断与调度环境交互，得到的交互经验通过使用一定的强化学习算法进行离线训练得到调度策略，该策略可直接用于在线求解新的调度案例。

然后针对工时不确定的模糊作业车间调度问题，采用考虑优先级经验回放的竞争双层深度Q网络（DDDQNPR）训练模型以在工时不确定的不同问题上实现泛化，利用深度卷积神经网络拟合状态动作值函数，创新性地将加工状态表达为多通道图像，把启发式调度规则作为调度决策可选行为，设计了一种等价奖励函数，采用值函数法强化学习进行离线训练，从而为每次调度决策选取最优组合行为策略。结果显示所提出的方法在静态案例，具有不同初始状态的调度案例和工时不确定的动态案例上仍然可以快速地获得鲁棒解。

其次针对复杂多变的柔性作业车间调度问题，采用端到端的深度强化学习进行求解，融合改进的指针网络和注意力机制，使用循环神经网络对解码器网络进行建模。为了训练该网络以最小化制造期，使用了策略梯度法进行训练，训练后的模型可以实时地产生出连续动作序列作为调度解，而不需要对每个新的问题实例重新训练。通过实验证明，不同于DDDQNPR针对每种规模问题单独训练一个模型，该方法在只训练一个模型的情况下就可以在不同规模的调度案例上得到优于经典启发式规则的性能。

接着针对具有多约束的实际柔性作业车间调度问题，提出了基于先验知识和后验知识的两级调度策略。首先通过基于先验知识的启发式方法快速得到初始解，采用“异步优势演员-评论家A3C”算法分别与多个调度环境的副本进行交互训练以获得后验知识指导交互调整，然后在第二级使用遗传算法进行自动优化求解。实验结果表明，强化学习代理可以针对目标工序给出交互建议，并能获得优于初始调度的交互结果，第二级的自动优化可以在短时间内获得更优的结果，验证了两级调度策略的可行性。

最后针对某复杂产品制造车间的调度应用需求进行分析，结合理论研究成果，开发基于深度强化学习面向调度人员使用的调度应用系统，从基础数据管理、离线训练、在线应用、人机交互操作、结果展示和动态事件同步等几个方面讨论了具有多种复杂约束的调度一般流程。

博士论文答辩||基于深度强化学习的复杂作业车间调度问题研究相关推荐

论文研读——基于深度强化学习的自动驾驶汽车运动规划研究综述
论文研读--Survey of Deep Reinforcement Learning for Motion Planning of Autonomous V ehicles 此篇文章为论文的学习笔记 ...
ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
论文阅读-基于深度强化学习的方法解决多智能体防御和攻击问题
论文原题目:A deep reinforcement learning-based method applied for solving multi-agent defense and attack ...
如何造出逼真图像？南洋理工Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作...
来源:专知本文为论文,建议阅读5分钟机器如何创造逼真的图像? 机器如何创造逼真的图像?这是个有意思的问题.深度学习算法的发展为这个问题的解决带来了机会.南洋理工大学Chuanxia Zheng博士论 ...
【ML4CO论文精读】基于深度强化学习的组合优化问题研究进展(李凯文, 2020)
基于深度强化学习的组合优化研究进展本人研究方向(博士期间):多目标组合优化与决策研究--致力于多约束多目标多任务组合优化算法和多目标决策系统的研究与开发,以及多目标优化技术在一些工程实践中的应用. ...
通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...
论文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcem ...
论文分享：基于深度强化学习的无人机三维导航
论文题目: Double Critic Deep Reinforcement Learning for Mapless 3D Navigation of Unmanned Aerial Vehicle ...
基于深度强化学习的车道线检测和定位（Deep reinforcement learning based lane detection and localization）论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位官方源码下载:https://github.co ...
【论文笔记】基于深度强化学习的机器人操作行为研究综述
目录摘要关键词 1 引言 2 概念和术语 2.1 深度学习 2.2 强化学习 2.2.1 强化学习算法原理 2.2.2 强化学习算法分类 1. 无模型(model-free)算法和基于模型(mod ...
【强化学习与机器人控制论文 1】基于深度强化学习的机械臂避障
基于深度强化学习的机械臂避障 1. 引言 2. 论文解读 2.1 背景 2.2 将NAF算法用在机器人避障中 3. 总结 1. 引言本文介绍一篇2018年发表在 European Control C ...

博士论文答辩||基于深度强化学习的复杂作业车间调度问题研究

文章目录

博士论文答辩||基于深度强化学习的复杂作业车间调度问题研究相关推荐

最新文章

热门文章