Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning 笔记

论文地址
笔记
- Abstract
- Introduction
- Method
- - EnergyPlus模型
  - 优化问题
  - DDPG
- Result and Discussion
- - EnergyPlus模型
  - - 基线算法对比
    - 神经网络设计对比
    - 超参数优化
  - NCSS数据集
  - - 模型输入改变
    - 引入DUE函数
    - 改变$\tau$会得到好的结果
    - 改变惩罚因子$\lambda$

论文地址

https://arxiv.org/abs/1709.05077

笔记

Abstract

冷却系统在现代数据中心中扮演关键角色，为数据中心建立一个最优的冷却系统控制策略是具有挑战性的任务。目前主要的方法都依赖于一个通过机械冷却，电气，热力学知识构建的近似系统模型，这个模型很难设计而且可能会导致不满意或者不稳定的表现。
本文提出了一种利用数据中心中海量监控数据来优化控制策略的方法。我们设计了一种的基于和的离线冷却系统控制策略。我们将冷却控制策略设计转化为具有温度限制的能源成本最小化问题，然后使用新兴的深度强化学习（DRL）框架来解决它。
具体而言，我们提出了一种端到端（end-to-end）冷却控制算法（CCA），该算法基于演绎-批评者（actor-critic）框架和无策略（off-policy）的离线的深度确定性策略梯度（DDPG）算法。在CCA中，评估网络用以预测由数据中心的冷却状态计算的能耗惩罚函数，策略网络用以在根据当前负载和天气信息时预测最优化控制策略。
我们在EnergyPlus仿真平台和从新加坡国家超级计算中心（NSCC）收集的真实数据上对算法进行了评估。结果表明，与手动配置的基线算法相比，CCA可以在仿真平台上实现约11％的冷却成本节省。在基于真实数据轨迹的评估中，由于我们无法直接在真实DC上测试算法，我们提出了一种去低估（de-underestimation,DUE）验证机制。即使DUE的结果是保守的，在将入口温度阈值设置为26.6摄氏度的情况下我们仍然可以在NSCC真实数据轨迹上实现约15％的冷却节能。

Introduction

略

Method

EnergyPlus模型

本文使用了一个EnergyPlus自带的模型，如下图所示：

其中冷却系统由5个参数：
DEC outlet temperature(airflow) Tdec,
IEC outlet temperature (airflow) Tiec,
chilled water loop outlet temperature (water flow) Tcw,
DX cooling coil outlet temperature (airflow) Tdx,
chiller cooling air loop outlet temperature (airflow) Tch
表征，EnergyPlus自带的DefalutE+控制算法也通过控制这5个参数来控制冷却

优化问题

将PUE值和出风温度折合作为惩罚函数，公式1为：

Epue\Epsilon_{pue}Epue是数据中心PUE值，T是平均IT设备出风温度，ϕ\phiϕ是温度上限。

DDPG

Q值网络由50，50，3神经元构成，yry_ryr是PUE值和IT设备平均出风温度，由此可以计算惩罚函数值（利用公式1）。Q值网络的输入是最近一段时间的状态和动作，即st−τ+1,at−τ+1,.....,st,ats_{t-\tau+1},a_{t-\tau+1},.....,s_t,a_tst−τ+1,at−τ+1,.....,st,atQ值网络的LOSS函数是预测的yry_ryr与实际数据的偏差。
μ\muμ值网络由50，50神经元构成，输入是最近一段时间的状态和动作以及当前状态，即st−τ+1,at−τ+1,.....,sts_{t-\tau+1},a_{t-\tau+1},.....,s_tst−τ+1,at−τ+1,.....,st，输出是ata_tat。μ\muμ值网络的LOSS函数是由输出的动作所导致的Q值网络的最终输出，即惩罚函数。
为了防止过拟合，我们追踪网络在测试集上得到的误差，以获取最优网络参数。
没看懂由于Q值网络最开始可能没有得到很好的训练，这会导致最开始μ\muμ值网络的测试集误差很小，为了解决这一问题，我们会周期性重置测试集误差值（原文：One important note is that for the network, the validation error can be small in the beginning due to that at that time the Q network is not well learned. For safety, we use a periodical re-initialization of the EvalμE^\mu_{val}Evalμ to solve this problem.）
不明白为什么注意，为了使用tanh激活函数，数据被归一化到(-1,1)的范围中，在计算惩罚函数时被反归一化。
算法描述如下：

Result and Discussion

EnergyPlus模型

网络训练算法是Adadelta。训练Batch size是128,最大迭代次数是200。惩罚因子设置为0.0.1。温度上限设置为29度。
基线算法有：EnergyPlus自带的DefaultE+算法，和TS优化算法

基线算法对比

可以看到CCA算法确实比较好，增加τ\tauτ值会导致较坏的结果，这是因为引入了更多噪声，但是在实际数据中会导致好的结果。

神经网络设计对比

TargetNet:引入TargetNet
ReluNet:将激活函数换为Relu，层数变为4层，神经元数：1024，512，256，3）（为什么要增加层数和神经元数，因为Relu会有死神经元？）
LSTMNet:先将历史轨迹（状态和动作）输入一个LSTM层，再输入到Q值网络
前三个网络**τ=1\tau=1τ=1,LSTMτ=3\tau=3τ=3**
可以看到结果基本相同，TargetNet由于我们引入了长历史轨迹来训练Q值网络，所以不会有很大优化。ReluNet和LSTMNet会大大减慢训练速度。

超参数优化

改变惩罚因子λ\lambdaλ可以引起如图的改变，这是显而易见的。

NCSS数据集

数据中心模型

模型输入改变

引入DUE函数

好处：

改变τ\tauτ会得到好的结果

改变惩罚因子λ\lambdaλ

Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning 笔记相关推荐

AutoML论文笔记（十四）Automatic Data Augmentation via Deep Reinforcement Learning for Effective Kidney Tumor
文章题目:Automatic Data Augmentation via Deep Reinforcement Learning for Effective Kidney Tumor Segmenta ...
Throughput Optimization for Grant-Free Multiple Access With Multiagent Deep Reinforcement Learning
Ref:R. Huang, V. W. S. Wong and R. Schober, "Throughput Optimization for Grant-Free Multiple Ac ...
最新发布| Jira官宣中国区本地部署特殊政策，公布Data Center价格
Atlassian官方发布Jira Server版停售消息至今已3个月,面对中国区用户的抗议,官方终于于2021年2月2日推出针对性政策,即将DC版准入门槛从500人下调至25人,并于2月5日召开发 ...
在Jira停售后，你决定赌Atlassian Data Center？
随着Atlassian Server产品做出服务调整(停止销售新的本地化部署服务许可证,并停止对本地化部署产品的新功能开发),可能有大批国内Server的用户就要被逼着去选择Atlassians Da ...
CF-527E(Data Center Drama) 欧拉图+构造
CF-527E(Data Center Drama) 欧拉图+构造题目链接题意 nnn个电脑mmm个网线(存在环和重边),你可以添加最少数量的网线并规定他们的方向,使每个点的出度都为偶数并且每个计 ...
CF528C. Data Center Drama(欧拉回路，构造)
CF528C. Data Center Drama Solution 容易发现,加边后的图必然满足所有点的度为偶数,并且总的边数是偶数,这启发我们使用欧拉回路. 设欧拉回路为vk1et1vk2et2v ...
EDC(Enterprise Data Center 企业数据中心)
EDC(Enterprise Data Center 企业数据中心) 参考:http://www.docin.com/p-247936120.html ERP (企业资源计划) 参考:http://b ...
VMware NSX-T Data Center 2.5 下载（转载）
NSX-T Data Center 2.5 针对私有云.公有云和混合云的虚拟化网络和安全引入了各种新功能.新功能主要包括增强了基于意图的网络用户界面.上下文感知防火墙.客户机和网络自检功能.IPv6 ...
互联网数据中心——IDC(Internet Data Center)
互联网数据中心--IDC(Internet Data Center),是指在互联网上提供的各项增值服务服务.他包括:申请域名.租用虚拟主机空间.主机托管等业务的服务. 基本简介 IDC即是Intern ...
互联网数据中心（Internet Data Center，IDC）
互联网数据中心(Internet Data Center,IDC) 互联网数据中心--IDC(Internet Data Center),是指在互联网上提供的各项增值服务,包括:申请域名.租用虚拟主机 ...

Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning 笔记

Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning 笔记

论文地址

笔记

Abstract

Introduction

Method

EnergyPlus模型

优化问题

DDPG

Result and Discussion

EnergyPlus模型

基线算法对比

神经网络设计对比

超参数优化

NCSS数据集

模型输入改变

引入DUE函数

改变τ\tauτ会得到好的结果

改变惩罚因子λ\lambdaλ

Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning 笔记相关推荐

最新文章

热门文章