强化学习用于电力系统决策与控制(一)——频率调整
强化学习RL用于电力系统决策与控制(一)——频率调整FR
- 1.频率调整(Frequency Regulation)FR
- 2.三级频率调整结构
- 3.如何将RL应用于FR(以AGC为例)
- 3.1 环境、状态和动作:
- 3.2 奖励设计
- 3.2.1 一般形式
- 3.2.2 奖励函数设计的其他表现形式
- 3.3 策略学习
- 3.3.1 选择有效的观测值
- 3.3.2 选择强化学习算法
- 3.4 讨论关键观测结果
- 3.4.1 环境模型
- 3.4.2 安全性
- 3.4.3 与现有控制器的集成
- 3.4.4 负载侧频率调节
本文主要用于记录笔者在看论文学习过程中的一些整理资料,可能有误欢迎指正,需要对强化学习有一定基础
1.频率调整(Frequency Regulation)FR
主要是通过平衡发电和负载要求使电力系统的频率保持在标准值附近,例如50HZ
2.三级频率调整结构
2.1 初级FR
称为droop control ,当调速器根据设定点调整发电机的机械功率输入时,在局部操作以在几秒的时间尺度上消除功率不平衡。
(初级控制背后的理念是快速平衡产生和需求。发电机共享负载,并沿稳定频率的方向移动功率输出。这是通过一种被称为下垂控制的分散的比例控制机制来完成的。)
2.2 二级FR
被称为automatic generation control (AGC),调整调速器的设定值,使频率和联络线功率交换恢复到其标称值,这是在几分钟内以集中的方式执行。
(二次控制层作用于主控制层,以补偿比例控制器无法消除的稳态误差,由积分控制完成)
在电力系统中,AGC是调节不同发电厂的多个发电机有功输出以响应负载变化的系统。
2.3 三级FR
即economic dispatch,重新安排设备投入,并在几十分钟至几小时内恢复二次控制储备。
(三级控制层与电力系统运行的经济方面有关。该层建立了源之间的负载共享,以便将操作成本最小化。三级控制通过经济调度实现,计算离线过程中的最优操作点)
3.如何将RL应用于FR(以AGC为例)
下面将以AGC为例子,通过描述环境、状态和行动的定义、奖励设计和控制策略的学习来说明如何应用RL。
3.1 环境、状态和动作:
现实频率动态模型
s表示系统状态,包括每条总线i的频率偏差∆ωi和从总线i到j的流量偏差∆Pij;
∆PM 和 ∆PL分别捕获发电机机械功率和其他功率注入的偏差。
发电机的调速涡轮控制模型可表示为时微分方程:
调速涡轮控制模型详情见:H. Bevrani and T. Hiyama, Intelligent Automatic Generation Control.CRC press, 2017.
其中,PiC是生成控制命令。
而现实频率动态模型和发电机的控制模型是高度非线性和复杂的。所以考虑使用无模型的RL方法,可以将底层的物理模型(上二式),以及操作约束,都被简单地视为RL中的环境。
3.2 奖励设计
3.2.1 一般形式
奖励函数的设计没有一般规律来遵循,唯一的原则就是能有效反应控制目标。
以多区域AGC为例(是二级FR),其控制目标是将干扰后的频率和联络线功率波动恢复到标称值,因此,关于时间t∈T的奖励可以定义为频率偏差和联络线偏差的负,如下式:
βi表示频率偏差∆ωi权重
3.2.2 奖励函数设计的其他表现形式
1)指数函数
其中a是最大可实现的奖励,b∈(0,1)是控制奖励衰减率的参数;这种条件确保r将奖励有助于频率恢复的行为。∆ω越接近零,奖励就越高。
引自:S. Rozada, D. Apostolopoulou, and E. Alonso, “Load frequencycontrol: A deep multi-agent reinforcement learning approach,” in Proc.IEEE Power Energy Soc. Gen. Meeting, Montreal, Canada, Aug. 2020.
2)绝对值函数
引自: J. Li and T. Yu, “Deep reinforcement learning based multi-objectiveintegrated automatic generation control for multiple continuous powerdisturbances,” IEEE Access, vol. 8, pp. 156 839–156 850, 2020.
3.3 策略学习
由于系统状态在实践中可能无法完全观察到,RL控制策略通常被定义为从可用的测量观测o到操作a的映射a(t)=π(o(t))。以下两个步骤对于有效地学习一个良好的控制策略至关重要。
3.3.1 选择有效的观测值
多区域AGC通常根据区域控制误差(ACE)信号进行操作,ACE定义如下:
βi为权重参数
关于ACE的比例、积分、微分形式对应为
以上三种形式可作为观测结果
其他观测值:如功率注入偏差 ∆PiM, ∆PiL,以及从FR原始数据中提取的特征数据
3.3.2 选择强化学习算法
可应用的RL算法有很多,故q_learning,基于DDPG的actor-critic框架,多真体RL用于集中学习和分散实现 等等
3.4 讨论关键观测结果
基于上述现有的工作,我们将讨论以下一些关键的观察结果。
3.4.1 环境模型
大部分文章所提出的环境模型和模拟器常由于其高保真复杂性、现实中难以维护而不适用于直接开发和应用于电网。
而可行的解决方案就是利用真实的系统操作数据来训练非策略RL方案。
3.4.2 安全性
由于FR对电力系统的运行至关重要,因此需要制定安全控制政策。具体来说,需要满足两个要求:1)应用RL控制策略时闭环系统动态稳定;2)满足线路热极限等物理约束。然而,现有的研究很少考虑将RL应用于FR的安全性问题。有文章采用李普诺夫的方法提出明确地设计DRL的神经网络结构,以保证频率的稳定性。
3.4.3 与现有控制器的集成
例如使用基于DRL的控制器作为现有基于PID的FR控制器的监督或补充控制器,以基线性能保证,提高动态自适应能力。
3.4.4 负载侧频率调节
上述研究集中在FR发电机的控制上,而各种新兴的电气器件,如基于逆变器的光伏单元,普遍存在的可控负荷和快速响应,是对发电频率控制的很有前途的补充。这些都是RL在智能电网中的潜在FR应用。
强化学习用于电力系统决策与控制(一)——频率调整相关推荐
- 1.5万字详述 | 全开源:python写小游戏+AI强化学习与传统DFS/BFS控制分别实现
简介:本周的强化学习我们来到实践部分.我以我在 GitHub 上开源的项目 PiperLiu / Amazing-Brick-DFS-and-DRL 为对象,从零开始与各位朋友分享:如何用 pytho ...
- 论文研读笔记(二)——通过深度强化学习避免碰撞的编队控制
通过深度强化学习避免碰撞的编队控制(Formation Control with Collision Avoidance through Deep Reinforcement Learning) 文献 ...
- ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型(附论文下载链接)...
选自arXiv 作者:Xinshi Chen.Shuang Li.Hui Li.Shaohua Jiang.Yuan Qi.Le Song 机器之心编译 参与:李诗萌.shooting 将强化学习用于 ...
- 下一个AI领域的高薪方向:强化学习与智能决策研究班2023年春季招生启事
世界繁花盛开 我们不必在同一个地方反复死磕 强化学习是最近5年来人工智能最令人激动的研究领域.如下图Google的搜索指数可以看到,强化学习的搜索指数最近一些年明显呈现增长趋势,而NLP(自然语言 ...
- QUANT[14]强化学习RL论文1:通过深度强化学习实现人的层次控制
论文<通过深度强化学习实现人的层次控制>解读 目录 1. 摘要 2.模型 3. 实验设置 4. 结果 5. 结论 6.正文翻译 1. 摘要 The theory of reinforcem ...
- CS224n研究热点11 深度强化学习用于对话生成
为什么80%的码农都做不了架构师?>>> 本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/cs224n-deep-reinforcem ...
- TechBeat: 强化学习ppo让决策智能演化出无限可能
TechBeat: 强化学习ppo让决策智能演化出无限可能
- OpenAI公布强化学习新算法,可控制复杂机器人
近日,OpenAI 发布了一种新型的强化学习算法:近端策略优化(Proximal Policy Optimization,简称 PPO),这种算法不但在性能上比肩甚至超过当前最先进的方法,而且更容易实 ...
- 三篇强化学习用于多智能体路径规划的论文
Multi-Robot Path Planning Method Using Reinforcement Learning 期刊:applied science MDPI 总结:使用VGG进行特征提取 ...
- 一种将 Tree-LSTM 的强化学习用于连接顺序选择的方法
[导读] 本篇博客讲解的是 2020 年由清华大学李国良教授团队发表在 ICDE 上的论文,介绍它所提出的算法与实验结果,并结合实际情况给出一些思考. 原文链接: http://dbgroup.cs. ...
最新文章
- 以太坊公链私链_如何使用以太坊构建汽车制造供应链系统
- 重温目标检测--YOLO v3
- java arraylist排序_Java 开发者最容易犯的10个错误【译】
- 【2022年蓝桥杯】蓝桥杯第一次海选考试题(5题考试大二)
- extjs 页面打开时表格自动加载后台传来的json数据
- 为什么我不用ViewPager或RecyclerView来做上下滑切换
- 地铁售票系统设计思想及部分代码
- 新手入门教程-------Spring Boot中集成RabbitMQ
- php截取3位数,使用php实现截取指定长度
- android 跑windows软件,Windows 10 Mobile用户现可让设备跑上Android软件
- Metronik 案例分享:使用 Aspose.Words 快速生成模板。
- 《系统分析与设计》课程设计——医院门诊信息管理查询系统
- 一键获取网易互娱内推攻略,快人一步拿offer!
- 20201212大一集训牛客网题之d题中学数学题
- Java oss 上传图片视频
- Win10的几个实用技巧系列之win10和win8系统哪个好用、系统任务栏和窗口假死的解决方法
- python矩阵变成图片_Python图片转换成矩阵,矩阵数据转换成图片
- DRF框架及APIView
- Android获取重力加速度和磁场强度
- 云原生钻石课程 | 第2课:Kubernetes 技术架构深度剖析
热门文章
- Java开发 明华usbkey_v3 明华二次开发包,usbkey 内有很多demo程序。 USB develop 238万源代码下载- www.pudn.com...
- MATLAB 2020b 中文版安装教程(简洁版)
- Vue-cli3项目案例
- 斯坦福大学的 CS231n课程
- 阿里小姐姐工作7年,P6升P7无望,欲去当培训师
- vmware linux ssh密码,从 CLI 重置 Linux VM 密码和 SSH 密钥 - Azure Virtual Machines | Microsoft Docs...
- 【DPS专题】工业篇:从“低谷”走向“巅峰”,DPS如何成为工业智能制胜法宝?...
- 信号与线性系统分析 吴大正 (与电子 通信专业的同学共勉)
- FlashBuilder环境下使用Starling出现的问题收集整理
- 基于linker实现so加壳补充从dex中加载so