【论文速读】Ordered Neurons:Integrating Tree Structures into Recurrent Neural Networks
ICLR 2019的两篇最佳论文之一。[paper]
虽然自然语言通常以序列形式呈现,但语言的基本结构并不是严格序列化的。语言学家们一致认为,该结构由一套规则或语法控制,且规定了单词组成语句的逻辑。不管其表现形式如何,这种结构通常是 树状 的。
基于此,本文提出了一种面向循环神经网络的新型归纳偏置:有序神经元,将潜在树结构整合到循环模型中。这种归纳偏置增强了神经元之间的依赖性,这种依赖性反映了每个神经元内所存储信息的生命周期。换言之,一些高级神经元储存长期信息,而低级神经元储存短期信息。
另外,为了避免高级和低级神经元之间的固定划分,本文进一步提出了一种新的 激活函数 cumax() 来主动分配神经元去存储长/短期信息。
该模型在语言建模、无监督成分句法分析、有针对性的语法评估及逻辑推理四个任务上表现优异。其在无监督成分句法分析任务上的结果表明,本文提出的归纳偏置与人类专家提出语法原则是一致的。实验还表明,就长期依赖和较长序列泛化而言,ON-LSTM 比标准 LSTM 模型性能更佳。
ORDERED NEURONS
上图所示为成分句法分析树与 ON-LSTM 的关系。给定 token 序列 S=(x1,x2,x3)S=(x_1, x_2, x_3)S=(x1,x2,x3),其成分句法分析树如图(a)所示。图(b)展示了树结构的块状图,其中 S 与 VP 节点都跨越了不止一个时间步。 高级节点的表征在跨越多个时间步时应保持相对一致。 图(c)展示了每组神经元在每个时间步的更新情况。在每个时间步,给定输入词,较深的灰色块代表完全更新,较浅的灰色块代表部分更新。三组神经元的更新频率不尽相同。较高级别的组更新频率较低,而较低级别的组更新频率较高。
由上图可以看出,隐藏层 hth_tht 的神经元建模了 token 序列的成分句法分析树中的所有节点信息,而某个时间步输入的 token xtx_txt 只是涉及了到了成分句法分析树中的部分节点信息,如果我们根据 xtx_txt 对隐藏层 hth_tht 的所有神经元进行更新,是不符合事实的。
因此,一个直观的想法就是,对隐藏层的神经元进行分组 ,不同的组代表成分句法分析树中不同的节点。这样,在每次更新的时候,就可以仅对涉及到的节点相应的神经元组进行更新。另外,由于隐藏层的神经元个数是固定的,但是从叶节点到根节点的路径长度是会随着时间和句子发生变化的。因此,理想的状态应该是模型可以动态地给不同的节点分配不同的神经元数目。
基于以上的分析,作者提出了ordered neurons,使得神经元可以建模不同时间尺度的信息。high-ranking的神经元建模长期或全局信息,而low-ranking的神经元建模短期或局部的信息。因此,high-ranking的神经元和low-ranking的神经元的更新频率是不一样的,当要擦除或更新高级神经元的信息时,首先要对比该神经元低级别的神经元进行信息的擦除或更新,也就是说低级神经元的更新频率会比高级神经元的更新频率要高。
模型
关于模型的部分,请参见这篇文章,讲解十分清晰,在此不再赘述。(主要是苏老师讲得已经很好了,真不是我偷懒。。。)
【论文速读】Ordered Neurons:Integrating Tree Structures into Recurrent Neural Networks相关推荐
- 论文:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
一.译文: ABSTRACT 自然语言是分层结构的:较小的单元(例如短语)嵌套在较大的单元(例如子句)中.当较大的组件结束时,嵌套在其中的所有较小的组件也必须结束.虽然标准的LSTM体系结构允许不同的 ...
- Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
写在前面 这个是对 这篇论文主要解决了一个问题: 提出了ON-LSTM框架 理解这个ON-LSTM框架也是比较重要 推介https://blog.csdn.net/c9Yv2cf9I06K2A9E/a ...
- [ICLR19] ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS
本篇是ICLR2019的两篇Best Paper之一.另一篇:THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWO ...
- 论文笔记:Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks
Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks(利用空间变化循环神经网络对动态场景去模糊) 这是C ...
- 【论文速读】城市自动驾驶应用的概率语义地图
点云PCL免费知识星球,点云论文速读. 标题:Probabilistic Semantic Mapping for Urban Autonomous Driving Applications 作者:D ...
- 【论文速读】RandLA-Net大规模点云的高效语义分割
点云PCL免费知识星球,点云论文速读. 文章:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds 作者:Qi ...
- 【论文速读】基于投影方法的激光雷达点云处理比较
点云PCL免费知识星球,点云论文速读. 文章:LiDAR point-cloud processing based on projection methods: a comparison 作者:Gui ...
- 【论文速读】基于图像的伪激光雷达三维目标检测
点云PCL免费知识星球,点云论文速读. 标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection 作者:Rui Qian, Divy ...
- 【点云论文速读】最佳点云分割分析
点云PCL免费知识星球,点云论文速读. 标题:Learning to Optimally Segment Point Clouds 作者:Peiyun Hu, David Held 星球ID:part ...
最新文章
- Redis 限流的 3 种方式
- mysql insert 的时候时间给默认值
- 用静态工厂方法代替构造器
- 阿里开源的那个牛X的问题排查工具——Arthas,推出IDEA插件了! | 文末福利
- 前端打印样式乱了_皮具大百科之皮料上的3D打印,连花的阴影都能完美复刻!超美工艺...
- DotText源码阅读(3)-框架配置体系和反序列化
- python蓝牙模块_Python蓝牙模块lightblue在mac osx 10.8上不起作用
- SPSS应用——时间序列分析
- 怎么制作GIF图片并添加文字
- 海量数据处理技巧-转载
- VBA实现多条件查询
- 微信8.0表情没有特效怎么回事
- H桥电机驱动基本原理
- html input 删除线,css样式实现字体删除线效果
- linux 向日葵 使用方法,远程控制工具——Centos7上向日葵安装使用
- 低代码”革了谁的命?
- 2018春招Android实习生面试感悟
- xshell 6查看测试日志
- SpringMVC整合websocket实现消息推送及触发
- 欢迎Edrp开发组第一个成员Zhuang Liu的加入!
热门文章
- Serveless 助力新零售 —— 乐凯撒新餐饮服务落地实践
- MDaemon架设邮件服务器案例
- 在Ubuntu下编译VLC并实现播放视频
- 基于VLC实现RTSP推流视频
- 从阿尔法策略到阿尔法对冲策略
- fullbnt matlab,Matlab 7.0 添加BNT工具箱
- vue使用高德地图画电子围栏_地理围栏-辅助功能-开发指南-iOS 定位SDK | 高德地图API...
- PyQt5页面跳转问题及解决方式
- 【C++】判断亲和数
- 【VRPTW】基于蚁群算法实现时间窗车辆配送问题附Matlab代码