论文理解(一)树形lstm
Long Short-Term Memory Over Tree Structures
树结构的lstm中的记忆细胞可以通过递归的过程反映多个孩子及后代的历史信息。孩子节点之间是否有交互(图一)?提供一种特定的方法考虑不同等级上的长距离交互。例如语言和图像的解析结构。
用s-lstm的记忆模块代替递归模型中的组合层,应用在通过语义组合来理解一段文本。句子的语义并不是线性的拼接,他是有结构的。与先前的lstm比s-lstm有避免梯度消失的潜力(前者也有,因为连续自乘引起的),通过树结构对长距离交互进行建模。S-LSTM can be viewed as considering together a recursive neural network and a recurrent neural network。In brief, S-LSTM wires memory blocks in a partial-order tree structures instead of in a full-order sequence as in a chain-structured LSTM。
论文有两点贡献,s-lstm在理解语义上效果较之前的方法好,利用结构信息有助于得到更好表现。
recursive:网络是定义在递归树结构上,每一个树节点是从它的孩子计算出来的向量。叶子节点和中间节点自底向上的组合。
recurrent:不同于前馈网络,在时间上分享隐藏状态。The sequential history is summarized in a hidden vector. RNN also suffers from the decaying of gradient, or less frequently, blowing-up of gradient problem. LSTM replaces the hidden vector of a recurrent neural network with memory blocks which are equipped with gates; it can in principle keep longterm memory by training proper gating weights
尽管链式结构的lstm很有前途,但是很多有趣的问题都和输入结构有着固有的联系,那比序列结构更复杂。就如前面提到的句子语义不是简单的单词拼接。尽管序列结构可以隐含的捕捉结构信息但是缺乏声称力量(claim power)。例如在机器翻译及语音识别领域,句子倒序会引起很大的变化。不同于先前的工作,我们提出s-lstm利用结构信息可以得到更好的结果相比于忽略结构信息而言。
记忆模块包括一个输入门,一个输出门,和多个遗忘门(数量和孩子的节点数相同),本文中是给出的二叉树的结构,所以有两个遗忘门,此结构在现实生活中应该有很多应用,也可以把一般的树转化为二叉树。
x(t)的当前输入是孩子节点传入父节点的隐含值。逆向误差传递的时候要区分当前处理的节点是左孩子还是右孩子。反向传播的时候,先计算各个门的的导数,然后再计算权重的导数,做更新。
目标函数需要考虑输出结构,依赖问题规模,本文定义目标函数是最小化所有节点的交叉熵的和。
我们把模型应用在语义组合上面。先前我们处理类似的问题一般是考虑目标短语较小的片段,用词袋模型。最近的工作,就会建模来组合,这是语义生成的一种新的方法。
更详细的解释在 https://blog.csdn.net/ltochange/article/details/118940404
论文理解(一)树形lstm相关推荐
- lstm 输入数据维度_理解Pytorch中LSTM的输入输出参数含义
本文不会介绍LSTM的原理,具体可看如下两篇文章 Understanding LSTM Networks DeepLearning.ai学习笔记(五)序列模型 -- week1 循环序列模型 1.举个 ...
- 【深度学习智能手机步态识别】Deep Learning-Based Gait Recognition Using Smartphones in the Wild 论文理解
[深度学习智能手机步态识别]Deep Learning-Based Gait Recognition Using Smartphones in the Wild 论文理解 解决什么问题 本文创新点/贡 ...
- A Learned Representation for Artistic Style论文理解
A Learned Representation for Artistic Style论文理解 这篇论文是在Perceptual losses for real-time style transfer ...
- 图卷积网络进行骨骼识别代码_【骨骼行为识别】2s-AGCN论文理解
Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition 论文链接: https:/ ...
- PacificA: Replication in Log-Based Distributed Storage Systems 论文理解
PacificA: Replication in Log-Based Distributed Storage Systems 论文理解 思考:论文有个结论说,相比 GFS 具有中心化的实体,Pacif ...
- 理解RNN、LSTM、GRU和Gradient Vanishing
最近在学习cs224n: Natural Language Processing with Deep Learning课程时,对RNN.LSTM和GRU的原理有了更深一层的理解,对LSTM和GRU如何 ...
- [计算机视觉] AprilTag 2: Efficient and robust fiducial detection(2016)论文理解
论文地址 chrome-extension://cdonnmffkdaoajfknoeeecmchibpmkmg/assets/pdf/web/viewer.html?file=https%3A%2F ...
- [计算机视觉] AprilTag: A robust and flexible visual fiducial system(2011)论文理解
论文地址 chrome-extension://cdonnmffkdaoajfknoeeecmchibpmkmg/assets/pdf/web/viewer.html?file=https%3A%2F ...
- 【6Dof位姿估计】DPVL:6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解
6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解 解决什么问题 本文创新点\贡献 本文IDEA来源 方法 方向向 ...
- 论文理解【RL - Exp Replay】—— 【ReMERN ReMERT】Regret Minimization Exp Replay in Off-Policy RL
标题:Regret Minimization Experience Replay in Off-Policy Reinforcement Learning 文章链接:Regret Minimizati ...
最新文章
- Pliops XDP(Extreme Data Processor)数据库存储设计的新型加速硬件
- 五分钟学会悲观乐观锁-java vs mysql vs redis三种实现
- Bitmap与IplImage之间的转换
- xdocument查找节点值_二叉查找树(java)
- ThreadPoolExecutor使用和思考(上)-线程池大小设置与BlockingQueue的三种实现区别
- YUI事件体系之Y.EventTarget
- nexttick使用场景_使用Jest实现Vue自动化测试
- 基于android的团购app设计与实现,基于Android的掌上团购App设计与实现
- Extjs数据展现原理
- Enterprise Library - Security Application Block 学习手册(最新版) Part 1
- py2topy3+cmd 命令
- 钝化 会钝化 订单审批流程 码一会er
- html中加载gif图片,使用CSS3实现动态加载gif图片的效果
- 学习QT之位置相关函数
- opencv4.0无法打开摄像头_笔记本电脑摄像头打不开怎么办
- idea打开文件显示多行,不隐藏
- 限制Editext输入字节长度
- anki最新开发文档(2.1)
- Elasticsearch 组合聚集(Composite aggregation)实现交叉分析
- z中国禽肉深加工市场盈利动态与竞争前景分析报告2022-2027年
热门文章
- 剑指offer(C++)-JZ25:合并两个排序的链表(数据结构-链表)
- 华为机试HJ17:坐标移动
- zabbix mysql trapper_分分钟一键部署Zabbix Server
- 有赞vant_vue+有赞vant的商品规格sku记录-小程序
- php redis list 长度限制,(PHP)redis List(列表)操作
- 步道乐跑怎么刷公里_车子一年跑不到5000公里,怎么保养比较好?这些方法最省钱...
- java jexl_利用Jexl实现数据库的计算公式在Java中执行
- 语言阿克曼函数_函数式的动态规划
- idea运行maven:No URLs will be polled as dynamic configuration sources
- 软件测试流程-全程软件测试【全思维导图】最新总结