强化学习用于电力系统决策与控制（一）—

强化学习RL用于电力系统决策与控制（一）——频率调整FR

1.频率调整（Frequency Regulation）FR
2.三级频率调整结构
3.如何将RL应用于FR（以AGC为例）
- 3.1 环境、状态和动作：
- 3.2 奖励设计
- - 3.2.1 一般形式
  - 3.2.2 奖励函数设计的其他表现形式
- 3.3 策略学习
- - 3.3.1 选择有效的观测值
  - 3.3.2 选择强化学习算法
- 3.4 讨论关键观测结果
- - 3.4.1 环境模型
  - 3.4.2 安全性
  - 3.4.3 与现有控制器的集成
  - 3.4.4 负载侧频率调节

本文主要用于记录笔者在看论文学习过程中的一些整理资料，可能有误欢迎指正，需要对强化学习有一定基础

1.频率调整（Frequency Regulation）FR

主要是通过平衡发电和负载要求使电力系统的频率保持在标准值附近，例如50HZ

2.三级频率调整结构

2.1 初级FR
称为droop control ,当调速器根据设定点调整发电机的机械功率输入时，在局部操作以在几秒的时间尺度上消除功率不平衡。
（初级控制背后的理念是快速平衡产生和需求。发电机共享负载，并沿稳定频率的方向移动功率输出。这是通过一种被称为下垂控制的分散的比例控制机制来完成的。）
2.2 二级FR
被称为automatic generation control (AGC)，调整调速器的设定值，使频率和联络线功率交换恢复到其标称值，这是在几分钟内以集中的方式执行。
（二次控制层作用于主控制层，以补偿比例控制器无法消除的稳态误差，由积分控制完成）
在电力系统中，AGC是调节不同发电厂的多个发电机有功输出以响应负载变化的系统。
2.3 三级FR
即economic dispatch，重新安排设备投入，并在几十分钟至几小时内恢复二次控制储备。
（三级控制层与电力系统运行的经济方面有关。该层建立了源之间的负载共享，以便将操作成本最小化。三级控制通过经济调度实现，计算离线过程中的最优操作点）

3.如何将RL应用于FR（以AGC为例）

下面将以AGC为例子，通过描述环境、状态和行动的定义、奖励设计和控制策略的学习来说明如何应用RL。

3.1 环境、状态和动作：

现实频率动态模型

s表示系统状态，包括每条总线i的频率偏差∆ωi和从总线i到j的流量偏差∆Pij；
∆PM 和 ∆PL分别捕获发电机机械功率和其他功率注入的偏差。

发电机的调速涡轮控制模型可表示为时微分方程：

  调速涡轮控制模型详情见：H. Bevrani and T. Hiyama, Intelligent Automatic Generation Control.CRC press, 2017.

其中，PiC是生成控制命令。
而现实频率动态模型和发电机的控制模型是高度非线性和复杂的。所以考虑使用无模型的RL方法，可以将底层的物理模型（上二式），以及操作约束，都被简单地视为RL中的环境。

3.2 奖励设计

3.2.1 一般形式

奖励函数的设计没有一般规律来遵循，唯一的原则就是能有效反应控制目标。
以多区域AGC为例（是二级FR），其控制目标是将干扰后的频率和联络线功率波动恢复到标称值，因此，关于时间t∈T的奖励可以定义为频率偏差和联络线偏差的负，如下式：

βi表示频率偏差∆ωi权重

3.2.2 奖励函数设计的其他表现形式

1）指数函数

其中a是最大可实现的奖励，b∈（0,1）是控制奖励衰减率的参数；这种条件确保r将奖励有助于频率恢复的行为。∆ω越接近零，奖励就越高。

     引自：S. Rozada, D. Apostolopoulou, and E. Alonso, “Load frequencycontrol: A deep multi-agent reinforcement learning approach,” in Proc.IEEE Power Energy Soc. Gen. Meeting, Montreal, Canada, Aug. 2020.

2）绝对值函数

引自： J. Li and T. Yu, “Deep reinforcement learning based multi-objectiveintegrated automatic generation control for multiple continuous powerdisturbances,” IEEE Access, vol. 8, pp. 156 839–156 850, 2020.

3.3 策略学习

由于系统状态在实践中可能无法完全观察到，RL控制策略通常被定义为从可用的测量观测o到操作a的映射a(t)=π(o(t))。以下两个步骤对于有效地学习一个良好的控制策略至关重要。

3.3.1 选择有效的观测值

多区域AGC通常根据区域控制误差(ACE)信号进行操作，ACE定义如下：

βi为权重参数

关于ACE的比例、积分、微分形式对应为
以上三种形式可作为观测结果
其他观测值：如功率注入偏差 ∆PiM, ∆PiL,以及从FR原始数据中提取的特征数据

3.3.2 选择强化学习算法

可应用的RL算法有很多，故q_learning,基于DDPG的actor-critic框架，多真体RL用于集中学习和分散实现等等

3.4 讨论关键观测结果

基于上述现有的工作，我们将讨论以下一些关键的观察结果。

3.4.1 环境模型

大部分文章所提出的环境模型和模拟器常由于其高保真复杂性、现实中难以维护而不适用于直接开发和应用于电网。
而可行的解决方案就是利用真实的系统操作数据来训练非策略RL方案。

3.4.2 安全性

由于FR对电力系统的运行至关重要，因此需要制定安全控制政策。具体来说，需要满足两个要求：1）应用RL控制策略时闭环系统动态稳定；2）满足线路热极限等物理约束。然而，现有的研究很少考虑将RL应用于FR的安全性问题。有文章采用李普诺夫的方法提出明确地设计DRL的神经网络结构，以保证频率的稳定性。

3.4.3 与现有控制器的集成

例如使用基于DRL的控制器作为现有基于PID的FR控制器的监督或补充控制器，以基线性能保证，提高动态自适应能力。

3.4.4 负载侧频率调节

上述研究集中在FR发电机的控制上，而各种新兴的电气器件，如基于逆变器的光伏单元，普遍存在的可控负荷和快速响应，是对发电频率控制的很有前途的补充。这些都是RL在智能电网中的潜在FR应用。