文章目录

  • ML、DL、CNN学习记录7
    • 强化学习
      • Makov
      • 贝尔曼方程
      • Value-Based
    • 知识图谱
    • 图神经网络


ML、DL、CNN学习记录7

强化学习(Reinforcement Learning)
图卷积网络/图神经网络(GCN/GNN)
知识图谱(Knowleage Graph)

强化学习

  1. Value- Based
  2. Policy- Based
  3. AC-series
  4. Game: Pacman(DQN)
  5. Game: Snake(DQN)
  6. Game: SuperMariobros(A3C)|


Action:a1
Episoid:[s1 a1 r1] [s2 a2 r2] …[sT aT rT]

  • 回报: (reward) 是强化学习的核心,是强化学习区别其他机器学习的标志特征。
  • 特点:衡量了智能体在时间t.上做得有多好。智能体的目标就是最大化累计回报。
  • 立即回报:当智能体在时间t做出动作a时,收到的回报R
  • 长期回报(回报值return) :智能体与环境不断交互,会收到回报序列R, R1, Rr+2,…。一种通用的累计回报的方式是将这些回报值进行加权求和:Gt=Rt+1+G_t =R_{t+1}+Gt​=Rt+1​+G,=R+1+ yR,+2 +.= >r*R,1+k+1,k= 0
  • 回报值衡量了动作at对未来结果的影响
  • 折扣因子γ(0~1):未来回报在当前时刻的价值比例。在k+1时刻获得的回报R在t时刻体现出的价值是y*R。

Makov

马尔可夫性

  • 马尔可夫决策过程(Markov Decision Processes, MDP)是对强化学习问题的数学描述.
  • 几乎所有的强化学习问题都能用MDP来描述(三步)
  1. 建立强化学习的数学模型- -构建马尔可夫决策模型。
  2. 求取每个状态s的值函数或策略函数- -评估
  3. 获取最优策略π- -改善
  • 如果某一状态信息蕴含了所有相关的历史信息。
  • 只要当前状态可知,所有的历史信息都不再需要。
  • 即当前状态可以决定未来,则认为该状态具有马尔可夫性。

P(St+1∣St)=P(St+1∣S1,S2,St)P(S_{t+1} | S_t)=P(S_{t+1}| S_1,S_2,S_t)P(St+1​∣St​)=P(St+1​∣S1​,S2​,St​)

贝尔曼方程

值函数的表达式可以分解成两部分:立即回报Rt+1R_{t+1}Rt+1​和下一时刻值函数的折扣期望。

贝尔曼方程体现了值函数和其后继值函数的迭代关系


同样地,Qπ(s,a)Q_{\pi}(s,a)Qπ​(s,a)的贝尔曼期望方程如下:


此外,有模型的方法(如DP)比较直观简单,包括策略迭代、值迭代两类方法。

  • 策略迭代:(贝尔曼期望方程的应用)策略评估、策略改进
  • 值迭代:贝尔曼最优方程的应用

探索与利用

  • 探索:尝试一个新的行为,以图挖掘更多的关于环境的信息。
  • 利用:智能体根据己知信息,选取当下最优的行为来最大化回报。

预测与控制
●也叫评估与改进。

  • 预测-评估:评估当前这个策略有多好,求解在既定策略下的状态值函数。
  • 控制-改进:对当前策略不断优化,直到找到-一一个最优策略

广义策略迭代(general ized policy iteration: GPI)

  • GPI包含两个过程:策略评估和策略改进,两者可以以各种粒度交错进行。 (如:值函数收敛之后进行策略改进,也可以进行–次策略评估之后就开始策略改进)
  • 几乎所有强化学习方法都可以被描述为GPI,是一个普遍的方法。
  • 评估、改进过程稳定,不再发生变化,则得到最优值函数和最优策略。
  • 评估、改进过程可看作竞争与合作的过程,都把对方往相反地方拉,最终得到最优解
    直接朝着一个目标会导致远离另-一个目标。联合过程更接近优化总目标

Value-Based

和环境进行交互
值函数:
行为值函数
状态值函数


MC (蒙特卡洛):基于频率进行估计
SARSA
Q-learning
DQN
Double DQ
Queling QN

知识图谱

实体 Entity
关系 relationship


实体关系三元组


标注工具



图神经网络

图神经网络(Graph Neural Networks,GNN)综述

一般图像使用矩阵进行表示

人与人之间的关系->加权边的


● GNN的类别

  • GCN: Spectral-based、 Spatial-based
  • GAT
  • GAE
  • GGN
  • GSTN

● GNN的发展

  • Graph attention networks:图注意力网络GAT
  • Graph autoencoders:图自编码GAE
  • Graph generative networks:图生成网络GGN
  • Graph spatial-temporal networks:图时空网络GSTN

● 相关研究学习

  1. 教程和概述:
  • 关系归纳偏差和图形网络(Battaglia等人, 2018)
  • 图形表示学习:方法和应用(Hamilton等人, 2017)
  1. 基于注意的邻域聚集:
  • 图形注意网络(Hoshen, 2017; Velickovic等人, 2018; Liu等人,2018)
  1. 嵌入整个图形:
  • 图形带边缘嵌入的神经网络(Battagliaet al., 2016; Gilmer et al., 2017)
  • 嵌入整个图(Duvenaud etal., 2015; Daietal., 2016; Lietal, 2018) 和图池(Ying etal, 2018, Zhang et al,2018)
  • 图生成和关系推理(Youet al,2018; Kipfetal。 ,2018年)
  • 图神经网络(Xu等人, 2017年)

ML、DL、CNN学习记录8相关推荐

  1. ML、DL、CNN学习记录7

    文章目录 ML.DL.CNN学习记录7 GAN(Generative Adversarial Network) GAN的学习 GAN的损失函数 GAN 训练 GAN的扩展 DCGAN CGAN Sta ...

  2. ML、DL、CNN学习记录6

    文章目录 ML.DL.CNN学习记录5 VAE VAE 工作流程 VAE's Detail code+explain Model Output GAN GAN原理 CRNN(多用于文字识别) ML.D ...

  3. ML、DL、CNN学习记录5

    文章目录 ML.DL.CNN学习记录4 RNN RNN类别 Word 表示 编码 10000dim - 100dim RNN基本运算 imdb 文本生成模型 模型示例 ML.DL.CNN学习记录4 T ...

  4. ML、DL、CNN学习记录3

    文章目录 ML.DL.CNN学习记录3 Transfer Learning ML.DL.CNN学习记录3 # coding: utf-8 # Date:2020/8/15 19:16 # @Autho ...

  5. ML、DL、CNN学习记录2

    文章目录 ML.DL.CNN学习记录2 图片通道 CNN 卷积 卷积如何操作 卷积核大小 卷积的意义 卷积后大小 卷积后大小计算公式(占的内存) 卷积后大小计算公式(运算时间) 1x1的卷积核 激活函 ...

  6. ml dl el学习_DeepChem —在生命科学和化学信息学中使用ML和DL的框架

    ml dl el学习 Application of Machine Learning and Deep Learning for Drug Discovery, Genomics, Microsoco ...

  7. ML、DL、CNN学习记录1

    文章目录 ML.DL学习记录1 ML .sklearn Tensorflow2.2.0安装问题 ML.DL学习记录1 ML .sklearn # coding: utf-8 # Date:2020/8 ...

  8. DL/T645-2007通信协议指令学习记录

    DL/T645-2007通信协议指令学习记录 DL/T645协议版本 DL/T645通信链路 DL/T645-2007数据格式 地址域 控制码C 数据长度L 数据域 DATA 校验码 CS 数据标识 ...

  9. python/ML/DL学习目录

    第一部分:python语法学习 . /*******环境搭建************/ 1. Anaconda安装 2. Anaconda的使用 3. Spyder的使用中遇到的问题 4. Jupyt ...

最新文章

  1. 【数据库】兴唐第二十八节课零散知识点汇总
  2. 0x21.搜索 - 树与图的遍历、拓扑排序
  3. 一起谈.NET技术,.Net Discovery系列之-深入理解平台机制与性能影响 (中)
  4. 如何使用“Hash文件信息校验” 工具
  5. 我的2015:创业年终总结
  6. [html] iframe可以使用父页面中的资源吗(如:css、js等)?
  7. python可以实现哪些功能_Python中实现机器学习功能的四种方法介绍
  8. ZK tree使用mold
  9. nftables-howto-zh中文手册(不完整)
  10. 如何简单地将工资单发给员工?
  11. vm内核参数之缓存回收drop_caches
  12. 【STM32】关于DMA控制器的介绍和使用
  13. SAP UD取消处理合订本
  14. opencv-python的颜色检测追踪
  15. cuda中pinned memory(page-locked memory)
  16. 2022年家用投影仪推荐 当贝F5和坚果J10S哪款画质更好?
  17. MATLAB 暖通,MATLAB在暖通空调课程教学中的应用
  18. VL53L0X+stm32激光测距
  19. Android第三方开发包值高德地图SDK使用介绍
  20. HM编码器代码阅读(31)——帧间预测之AMVP/Merge模式(六)运动补偿

热门文章

  1. 定期存款可以提前取出来吗_定期存款、约定转存、自动转存和自己取出来转存有什么不同?...
  2. 单片机modbus rtu通讯_Modbus-RTU通讯
  3. ajax和php没反应,PHP和AJAX没有更新发生
  4. stm32l4 外部中断按键会卡死_stm32f103c8怎么实现外部中断按键点灯,按一下就亮,再按一下就灭,求大神帮忙...
  5. java复选框只会选中一个_java复选框选中
  6. python列表嵌套 分配学生_学生信息中列表嵌套使用的问题--python代码工作笔记(1)...
  7. php接收base64图片并保存
  8. 面向对象风格的合理架构
  9. java管理分类编写_java029学生管理系统的编写
  10. java 泛型 比较_java 泛型和object比较