[1]主要利用RL实现在有限样本下学习最佳的数据库配置。设计的奖励函数可以有效地提高调优效率,DDPG算法可以在高维连续空间中找到最优配置

基本思想:我们尝试了RL中最经典的Qlearning和DQN模型,但这两种方法都未能解决高维空间(数据库状态,knobs组合)和连续动作(连续knobs)的问题。最后,采用基于策略的深度确定性策略梯度方法(DDPG),有效地克服了上述缺点。此外,作为RL的灵魂,奖励函数(reward function, RF)的设计至关重要,直接影响模型的效率和质量。因此,通过模拟DBA的调优体验,设计更符合调优场景的奖励函数,使算法高效执行。

本文中的reward是调优前后的性能差值。policy是给定一个CDB状态,如果调用一个操作(例如,一个旋钮调优),策略通过将操作应用于原始状态来保持下一个状态。这里的策略是深度神经网络,它保持输入(数据库状态)、输出(旋钮)和不同状态之间的转换。RL的目标是学习最好的策略

State是内部指标(例如在一段时间内从磁盘读取或写入页面的计数器)代表了CDB的当前状态。

Action是 旋钮调优操作,在CDB对应的状态下,CDB根据最新的策略执行相应的动作。

本文在学习价值函数时,没有采用Q-learning,DQN 而是采用Deep Deterministic Policy Gradient

[2]索引调优的目的是为输入工作负载找到最优的索引配置。索引调优的目的是为输入工作负载找到最优的索引配置。这需要在 exploration 和 exploitation之间找到平衡。

States. We define the set of states S of the MDP as all index configurations in the search space.

Actions. For a state

强化学习+数据库简单小结相关推荐

  1. 强化学习入门简单实例 DQN

    [强化学习入门 第一讲 MDP](https://zhuanlan.zhihu.com/p/25498081) [随笔分类 - 0084. 强化学习](https://www.cnblogs.com/ ...

  2. 图解深度强化学习(简单的)

    其实理解起来就是环境是一个根据输入输出响应信息的一个标注器 其他的就是一个神经网络, 只不过输入和输出是环境的输入和输出,神经网络就是智能体.代替和模拟其他左右动作,就人类环境而言,我们是和环境学习的 ...

  3. GCD学习之简单小结

    1.常用的方法dispatch_async 为了避免界面在处理耗时的操作时卡死,比如读取网络数据,IO,数据库读写等,我们会在另外一个线程中处理这些操作,然后通知主线程更新界面. 用GCD实现这个流程 ...

  4. 强化学习(六) - 连续空间中的强化学习(RL in Continuous Spaces)及相关实例

    强化学习(六) - 连续空间中的强化学习 6.1 连续空间中的强化学习 6.2 离散空间和连续空间 6.3 离散化 实例:小车上山 6.3.1 相关程序 6.3.2 程序注解 (1) 环境测试 (2) ...

  5. 强化学习70年演进:从精确动态规划到基于模型

    作者 | Nathan Lambert 译者 | 泓礼 编辑 | 夕颜 出品 | AI科技大本营(ID: rgznai100) [导读]这是一份帮你了解强化学习算法本质的资源,无需浏览大量文档,没有一 ...

  6. 《强化学习周刊》第24期:CORL 2021强化学习的最新研究与应用

    No.24 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于CORL 2021学 ...

  7. 关于人工智能中强化学习的扫盲

    https://www.toutiao.com/a6666688293163237896/ 前言 对一个认知科学家来说,一个最基本的问题是"如何学习新知识?".回答这样一个问题的i ...

  8. Q学习(Q learning) 强化学习

    Q学习(Q learning) 强化学习的简单例子 Matlab实现 可视化_Morty 的挖坑记录-CSDN博客 强化学习(MATLAB) - 叮叮当当sunny - 博客园

  9. 强化学习之原理与应用

    PaddlePaddle原创 2019/02/20 17:23 强化学习之原理与应用 强化学习特别是深度强化学习近年来取得了令人瞩目的成就,除了应用于模拟器和游戏领域,在工业领域也正取得长足的进步.百 ...

最新文章

  1. Python 【快手】短视频的自动上传与发布实例演示,同时支持抖音、哔哩哔哩、小红书、微视、西瓜视频、微信视频号等平台的视频自动化同步发布
  2. 350店铺装修激活码发放 免费领取店铺装修模板
  3. Json格式转化为string格式
  4. JZOJ 3814. 【NOIP2014模拟9.7】天黑黑
  5. JDK8新特性(一)之Lambda表达式
  6. 操作SD卡,获取文件目录及文件工具类Android,listView
  7. C语言八进制和十六进制数
  8. 不同加密算法的国际标准与国标
  9. 进销存数据库设计 For MysQL
  10. 【名单回顾】CSP-J2 2019年第二轮入门级获奖名单(仅列北京地区小学生)
  11. 淘宝店铺所有商品API接口(店铺所有商品列表接口)
  12. C++学习足迹---(纯DOS版)五子棋
  13. OLED驱动芯片SSD1306解读
  14. 计算机指令的操作码和地址,操作码和地址码
  15. 如何下载B站视频(方法持续更新)
  16. Python实现飞机大战
  17. Consul 踩坑日记,节点id冲突
  18. 马哥教育SRE笔记【作业】week05
  19. 科普系列:AUTOSAR与OSEK网络管理比较(上)
  20. 【案例实战】不会慢 SQL优化?收藏一下这个例子

热门文章

  1. web前端学习(四):基于koa的EggJs框架,优雅而又完美的Nodejs框架
  2. python求三个数平均值_python求三个数平均值
  3. dedecms获取顶级栏目名称、二级栏目名称实现方法
  4. trt 使用trtexec工具ONNX转engine
  5. 遗传-粒子群算法遗传-禁忌搜索算法求解TSP问题
  6. 适配 iPhone13、iPhone13 pro、iPhone13 proMax
  7. 在桌面上显示你的每日计划(提醒事项)
  8. 华中科技大学 计算机 排名,计算机最强14所高校排名,清华第2,浙大第4,南大第6,华科第10...
  9. asp+excel通用成绩查询系统 v6.8 工资查询物业费水电费查询通用哦
  10. 手把手教你搭建网盘系统,给小姐姐换个新家可好​?