论文笔记-建筑能源管理的强化模型预测控制
这是一篇使用强化学习方法来解决建筑能源的论文,作者将MPC和RL结合起来来用于建筑室内温度的调节。
首先,作者通过讨论每种方法的主要方面,在概念水平上强调RL和MPC之间的互补性。其次,描述了RL-MPC算法,该算法有效地结合了来自每种方法的特征,即状态估计、动态优化和学习。最后,MPC、RL和RL-MPC在BOPTEST中实现和评估
一、引言
一方面,MPC处理不确定性、系统复杂性和长期预测范围,而深度强化学习可以自然地处理复杂系统的不确定性和无限预测范围。另一方面,RL难以满足约束,缺乏可解释性,而MPC可以提供安全性保证和可理解性。
在比较中,MPC使用灰箱模型,RL代理使用基于值的算法。
在本文中,作者将MPC目标函数与RL代理值函数相结合,同时使用根据领域知识编码的非线性控制器模型。这种做法确保了两种方法之间的互操作性,并能够截断MPC优化问题。
这篇论文的主要局限在于缺乏RL-MPC的理论保证,这只能通过经验测试。
二、相关工作
更一般地,RL已经被提议与MPC合作用于除建筑能源管理之外的应用,建议使用MPC作为RL的函数近似值。
三、MPC和RL的区别
3.1
(1)MPC
首先,从工厂获得一个测量向量mmm,一个刻画当前系统特征的状态向量x^\hat{x}x^。然后,根据目标函数JJJ和控制模型FFF对未来状态向量xxx和输入轨迹uuu进行优化,同时也引入限制HHH。目标函数JJJ、模型FFF、限制HHH包含的变量包括:模型输出yyy,代数变量zzz(是个什么东西),干扰ddd,时间独立变量ppp,另外,预测的未来干扰d(tk,tk+Δth)d(t_k,t_k+\Delta t_h)d(tk,tk+Δth)作为优化器的外部输入。
状态xxx表示当前的一些温度,yyy是xxx的一个子集。ddd表示影响建筑的其他不可控变量,如外部温度和太阳辐射等。
(2)MDP(markov决策过程)
3.2 术语
通过3.1可以看到MPC和RL有许多的相似之处。MPC的目标是最小化目标函数JJJ,RL的目标是最大化累积收益GGG。两者之间的关系可以通过即时奖励来形式化:
3.3 解决方法
MPC的求解可以分为隐式和显式。动态优化问题的求解是隐式预测控制方法的核心。可以确定三种主要的求解方法来解决动态优化问题:动态规划(DP)、直接方法和间接方法。
3.4 最优性
在MPC中,最优解的质量取决于控制器模型的精度,由于计算原因,控制器模型经常被简化。
另一方面,基于动态规划的方法依赖于贝尔曼原理,可以为全局最优提供充分条件。不利的是,这些方法受到维数灾难的阻碍。
3.6 预测范围
MPC沿有限预测范围使用显式优化,RL学习动作以优化当前和未来折扣奖励的总和。MPC的一个缺点是有限的视野。
3.7 模型的使用
模型和函数近似在MPC和RL中的使用是不同的。
在MPC中,用来表示系统的模型称为控制器模型。这些模型是通过领域知识、系统识别或从历史监测数据的监督学习获得的。通常情况下,控制器型号被划分为白盒、灰盒或黑盒,这取决于物理观察和/或监控数据是否用于其配置。MPC中的优化问题对控制器模型施加了严格的限制,这些模型通常被简化以保证收敛性,但代价是性能损失。
3.8 部分可观测性
四、 RL-MPC
来自控制和机器学习的元素被有效地结合,即状态估计、动态优化和学习。
4.1 合并MPC和RL
在MPC-RL中,作者使用RL超前一步的状态估计值来截断MPC的非线性规划。具体来说,使用基于值的Rl来估计MPC在超前一个状态s′s's′的值。
MPC的主要组件在RL-MPC中不变,即状态估计器、预测器和优化器,但是值函数用于缩短非线性程序并实现学习,如图:
4.2 正式描述
RL中的q值
考虑MPC,可以改写为
定义状态值函数:
这允许将动作值函数重新表述如下:
假设知道了控制器模型,RL-MPC遵循的策略在等式组中定义:
RL-MPC的算法描述:
1-3行为离线学习,而第4–10行构成了算法在实际建筑环境中的部署。
五、实验
实验流程:
控制器的最终目标是保证热舒适性,同时将运行成本降至最低。
5.1 系统识别
MPC需要一个控制器模型FFF,来确定环境EFE_FEF来预训练RL和RL-MPC算法。
5.2 MPC实施
在每一个控制步骤中需要解决的优化问题如下图所示:
PPP是功率,6是不舒适度,被定义为实际温度与温度上下界的偏离。
5.3 RL实施
状态的维度∣S∣|S|∣S∣为608,将动作隔离为11个离散的单位。算法采用DDQN算法,DDQN是一种非策略算法,它按照随机梯度下降方案更新网络权重。
5.4 RL-MPC实施
RL-MPC算法继承了MPC和RL实现中描述的所有属性和超参数。这意味着使用与MPC相同的控制步骤、预测范围和状态估计器,以及与RL代理相同的预训练q函数。
5.5 结果
六、结论
本文提出并评估了强化模型预测控制RL-MPC,这是一种有效地结合了RL和MPC的元素(如状态估计、动态优化和学习)的算法。
新算法在确定性设置中获得类似于MPC的性能结果,即使当使用不完美的值函数时。它还能够像经典的RL方法一样进行学习,这种方法允许自然地处理不确定的环境或复杂的奖励,而不需要它们的分析形式。
此外,RL-MPC的当前实现可以通过用定义价值函数的方程扩展控制器模型来进一步改进,以使用有效的优化技术并实现算法的可扩展性。
论文笔记-建筑能源管理的强化模型预测控制相关推荐
- 论文笔记-连续HVAC控制的无模型强化学习算法的实验评估
本文在一个模拟的数据中心中对四种actor-critic算法进行了实验评估.性能评估基于它们在提高能效的同时保持热稳定性的能力,以及它们对天气动态的适应性.与在EnergyPlus中实施的基于模型的控 ...
- 人工智能技术在建筑能源管理中的应用场景
人工智能技术在建筑能源管理中的应用场景(龙惟定),2021 摘 要 本文简要介绍了建筑能源管理(building energy management, BEM) 的概念.并从5个方面阐述了 BEM 对 ...
- 论文笔记—ITS+假名管理—ASPA: Advanced Strong Pseudonym based Authentication in Intelligent Transport System
ASPA: Advanced Strong Pseudonym based Authentication in Intelligent Transport System 文献翻译 目录 ASPA: A ...
- 【论文笔记】CVR预估之ESMM模型
概述 预测post-click转换率CVR在排序系统如推荐系统.广告中是至关重要的.传统的CVR模型使用深度学习方法已经实现到state-of-the-art水平.但是在实际应用中会遇到几个特定的问题 ...
- 【论文笔记】ICLR2022 Oral Presentations 强化学习论文5篇
来自我的组会报告ppt. 文章目录 引子 Provably Filtering Exogenous Distractors using Multistep Inverse Dynamics The I ...
- 【论文笔记】基于分层深度强化学习的移动机器人导航方法
目录 摘要 关键词 0 引言 1 基于分层深度强化学习的导航方法 1.1 模型框架 1.1.1 避障控制模型 1.1.2 目标驱动控制模型 1.1.3 行为选择模型 1.2 模型训练 2 实验分析 2 ...
- 建筑能耗管理系统,大型公共建筑电能耗的监测及能源管理迫在眉睫!
随着我国经济社会的发展和环境资源压力越来越大,节能减排形势严峻,在大力推进建筑领域节能工作中,公共建筑高耗能的问题日益突出. 节约能源是资源节约型社会的重要组成部分,建筑的运行能耗大约为全社会商品能耗 ...
- 【能源物联网】物联网体系结构与建筑能源管理系统的相关性分析
摘要: 在能源形势紧张的大趋势下,高能耗的大型公共建筑能源管理系统的建设逐渐受到重视,以物联网技术及基础的建筑能源管理平台可以提供即时.准确.高效的能源管理策略.系统阐述了结合物联网技术的建筑能源管理 ...
- 基于物联网技术的能源管理系统设计
安科瑞 华楠 摘 要:在能源形势紧张的大趋势下,高能耗的大型公共建筑能源管理系统的建设逐渐受到重视,以物联网技术及基础的建筑能源管理平台可以提供即时.准确.高效的能源管理策略. 系统阐述了结合物联网技 ...
最新文章
- sql datetime字段 取年月日_如何去写一手好的SQL ?
- leetCode C++ 49. 字母异位词分组 给定一个字符串数组,将字母异位词组合在一起。字母异位词指字母相同,但排列不同的字符串。
- 百度地图离线_“高德地图”和“百度地图”有什么差别? 专家: 细节决定成败!...
- Visual Basic中实现带预览的对话框
- python基础语法-异常处理
- SAP CRM product settype read from database table
- Flask 中的数据库迁移
- Java关键字——final的用法
- 乐观锁与悲观锁的应用场景
- Python+Pandas 读取Oracle数据库
- PyMining-开源中文文本数据挖掘平台 Ver 0.1发布
- 那些想替代 C 的语言怎么样?Go、Rust、C++ 和 Zig 生产力对比
- IDEA设置好看的字体
- uni-app 小程序dom转img 生成海报插件Painter;解决引入网络图片真机显示空白问题;解决生成的图片模糊问题
- 数论基础----逆元 (数论中的“倒数”)
- 然后查看服务器运行情况,netstat命令查看服务器运行情况
- ArcMap批量等分割线流程
- 距离度量(Distance Metric)方法
- 准大二生的暑期自学安排
- CTF竞赛实战 中国菜刀与一句话木马