【转载 | 强化学习】Curriculum Learning和Self-paced Learning的相关知识及应用
本文转自:https://www.jiqizhixin.com/articles/2018-11-09-10
本次分享主要围绕强化学习的方向,向大家介绍,Curriculum Learning和Self-paced Learning的相关知识及应用。
Curriculum Learning和Self-paced Learning的介绍如下:
Curriculum Learning和Self-paced Learning代表了最近提出的学习制度,其受到人类和动物学习过程的启发,这些学习过程逐渐从训练中的简单复杂样本开始。这两种方法具有相似的概念学习范式,但在具体的学习方案上有所不同。
在Curriculum Learning中,课程由先前知识预先确定,并在此之后保持固定。因此,这种方法在很大程度上依赖于先前知识的质量而忽略了关于学习者的反馈。
在Self-paced Learning中,课程是动态决定的,以适应学习者的学习节奏。但是,Self-paced Learning无法处理先前的知识,使其容易过度拟合。
Curriculum Learning
Curriculum Learning有点类似人类学习机制——先学简单的技能,再学困难的。学习有意义的训练数据顺序可以使各种任务受益,即首先选择更容易学习的例子,然后逐渐增加难度。
课程学习的概念是2009年 Yoshua Bengio等人在《Curriculum learning》一文中提出来的。其特点包括:
- 提高生成速度和加快收敛速度
- 在非凸的训练准则上找到更好的局部极小值
今天分享的第一篇文章是《Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning》。
该文主要研究异构星型网络的学习节点表示,该异构星型网络的中心节点类型通过不同类型的边与多属性节点类型相连。
并提出了一个基于深度增强学习的方法,使用LSTM模型来编码状态,并进一步估计每个state-actionpair的期望cumulative reward。该文在深度增强学习的基础上融合了learning和planning的策略。实验证明该方法有效且高效。
规划模块的动作是选择某种边缘类型,在每一步中,状态被定义为到目前为止选择的边缘类型序列。在节点分类任务中,将奖励定义为准确度增益,惩罚每一个动作。目标是采取一系列行动以最大化累积奖励。
学习模块是通过利用LSTM层对状态进行编码,我们可以有效地捕获不同状态的相关性,以推断新的状态 - 动作对的Q值。
Self-paced Learning
今天分享的第二篇文章是《 Self-paced network embedding》。
由于传统的抽样分布不能捕获每个节点的真实信息,并且不能反映训练的状态,本文提出了一种新的self-paced network embedding方法来解决此问题。
该方法能够根据当前训练状态自适应地捕获每个节点的信息量,并根据其信息量对负上下文节点进行采样。所提出的self-pace采样策略能够随着训练过程的进行,逐步选择困难的负面上下文节点,以学习更好的节点表示。
此外,为了更好地捕捉节点信息性以学习节点表示,将该文的方法扩展到具有更大发现节点信息能力的生成性对抗网络框架。在基准网络数据集上进行了大量的实验,验证了所提出方法的有效性。
【转载 | 强化学习】Curriculum Learning和Self-paced Learning的相关知识及应用相关推荐
- 强化学习(二):Q learning 算法
强化学习(一):基础知识 强化学习(二):Q learning算法 Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action ...
- 深度强化学习之:模仿学习(imitation learning)
深度强化学习之:模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 ...
- tensorflow强化学习之打乒乓球(Reinforcement Learning)
2019独角兽企业重金招聘Python工程师标准>>> 深度学习大部分是监督学习,而且需要海量,高质量的数据对.这在现实世界,是非常难的事情.人类的学习过程里,不可能让一个孩子,看一 ...
- Docker学习总结(68)—— Docker 数据卷相关知识总结
前言 在生产环境中使用 Docker,要想实现数据的持久化(所谓 Docker 的数据持久化即数据不随着 Container 的结束而结束)或者需要在多个容器之间进行数据共享,需要将数据从宿主机挂载到 ...
- sad代价计算_转载:H.264帧内模式选择以及代价计算相关知识
转自:http://blog.csdn.net/xingyu19871124/article/details/7721374 标签: h.264 优化 算法 c 测试 2012-07-06 10:57 ...
- 51单片机学习笔记(5)——去耦电容的相关知识介绍
①去耦电容的应用背景--电磁干扰EMI 现实生活中的电磁干扰种类很多,包括静电放电ESD.快速瞬间群脉冲EFT.浪涌Surge等等.电磁干扰是我们在电路分析和设计中必须要注意的问题,比如一个简单的静电 ...
- 机器学习-55-RL-07-Sparse Reward(强化学习-稀疏奖励:Reward Shaping,Curriculum Learning,Hierarchical RL)
文章目录 Sparse Reward Reward Shaping(奖励塑造) Reward Shaping Curiosity(ICM) Curriculum Learning Curriculum ...
- 深度强化学习8:Imitation Learning
[李宏毅深度强化学习笔记]8.Imitation Learning qqqeeevvv 2020-01-30 18:18:16 3344 收藏 4 分类专栏: 强化学习 # 理论知识 </div ...
- 机器学习-49-RL-01-Deep Reinforcement Learning(强化学习-强化学习的基本介绍 Policy-based方法的基本介绍)
文章目录 Deep Reinforcement Learning Reference Example: Scenario of Reinforcement Learning(强化学习的应用场景) Su ...
- Drones Chasing Drones: Reinforcement Learning and Deep Search Area Proposal(无人机追逐无人机:强化学习和深度搜索区域建议)
Drones Chasing Drones: Reinforcement Learning and Deep Search Area Proposal Abstract: 1.Introduction ...
最新文章
- Python脱产8期 Day02
- Linux各个发行版本的选择
- Oracle ADG vs DG
- Ubuntu下hadoop的安装与简单应用
- 绿色计算在数据中心的应用及节能效果浅析
- 【原创】如何找回source insight context window?(作者:gooogleman)
- LoadRunner Interview Questions
- Seek the Name, Seek the Fame POJ - 2752 (理解KMP函数的失配)既是S的前缀又是S的后缀的子串
- Ext JS 4.2.0发布
- 拖动小游戏html,Cocos Creator 入门篇-拖拽小游戏(一)
- JSON cannot be resolved 解决方法
- 选用什么的域名后缀好
- AT91SAM9260使用SAM-BA调试BOOT程序
- html5 高度 满屏,HTML5 全屏特性
- 计算机考研400分以上,考研400分是什么概念?
- 敏捷开发实践经验分享
- SQL回炉重造07_函数
- png格式转jpg格式
- 简单的鼠标和键盘事件+阻止默认阻止冒泡+dom0,dom2
- SQL语句四种分类之一(DQL)
热门文章
- Java 获取、删除Word文本框中的表格
- 大学物理实验(二)气体比热容比的测定
- 24bit,192KHz 双通道数模转换电路/立体声数模转换芯片MS4344 可替代CS4344-CZZR
- matlab画s域零极点图,信号与系统的S域分析.ppt
- Java课程学习四:编程题
- Swagger Error Missing required property: responses ✖ Swagger Error Additional properties not allowe
- setBounds(left, top, right, bottom)详解
- 云服务器抢票咋用_抢票的实现方法
- Linux开发板实现 NTP时间获取
- 悲剧收场的梅耶尔给雅虎留下了哪些“遗产”?