阅读笔记 - Pointer Network
主要内容
- 论文内容
- 原有模型的问题(Issues in Seq2Seq/RNN)
- 模型架构(Architecture)
- 模型解决的问题
- 凸包问题(convex hull problem)
- 德劳内三角剖分(Delaunay)
- 旅行推销员问题(Travelling Salesman Problem)
- 训练过程
论文内容
原有模型的问题(Issues in Seq2Seq/RNN)
传统的Seq2Seq结构或是单RNN的结构在不少领域都取得了SOTA效果,但这些结构都有一个特性,就是输出的词典大小是我们预设好的。无法应对变长的词典。很多问题都会使用变长的词典,例如本文中提到的三个组合优化问题,均要求我们从给定的输入找到答案。而每一次输入的数据都是有变化的。
本文提出的结构能够有效解决这个问题。并且在遇到超过训练样本最大长度的新数据时,也具备良好的泛化能力。
模型架构(Architecture)
从架构上来看,模型与传统的Seq2Seq是一样的,唯一的区别在于Attention机制的应用。
原文用AddictiveAttention做例子,原本attention机制是对于encoder的每一个时间步计算一个权重。然后将每一步的隐状态做加权求和,然后与decoder的隐状态拼接,作为下一步decoder的输入。
而在本文中,attention机制中计算的权重作为“指针”使用,实际上也就是输出了一个关于encoder每一个位置的分布。然后根据分布直接从输入序列中拿对应的词汇作为输入。
原文中形式化的描述:
假设输入序列为 P P P, v v v为Addictive attention中对齐模型的隐状态,encoder的隐状态为 ( e 1 , e 2 , e 3 . . . . . . e n ) (e_1,e_2,e_3......e_n) (e1,e2,e3......en),decoder的隐状态为 ( d 1 , d 2 , d 3 . . . . . . d m ( p ) ) (d_1,d_2,d_3......d_{m(p)}) (d1,d2,d3......dm(p))
Addictive attention:
u j i = v T t a n h ( W 1 e j + W 2 d i ) {u_j}^i = v^Ttanh(W_1e_j+W_2d_i) uji=vTtanh(W1ej+W2di)其中 j ∈ ( 1 , 2 , 3...... n ) j\in(1,2,3......n) j∈(1,2,3......n)
a j = s o f t m a x ( u j i ) a_j = softmax({u_j}^i) aj=softmax(uji)
d i ′ = ∑ i = 1 n a i e i {d_i}^{'}=\sum_{i\;=\;1}^na_ie_i di′=∑i=1naiei
ptr-net:
u j i = v T t a n h ( W 1 e j + W 2 d i ) {u_j}^i = v^Ttanh(W_1e_j+W_2d_i) uji=vTtanh(W1ej+W2di)其中 j ∈ ( 1 , 2 , 3...... n ) j\in(1,2,3......n) j∈(1,2,3......n)
p ( c i ∣ c 1 , c 2 , c 3 . . . . . . c i − 1 ) = s o f t m a x ( u i ) p(c_i\vert c_1,c_2,c_3......c_{i-1})\;=\;softmax(u^i) p(ci∣c1,c2,c3......ci−1)=softmax(ui)
可以看到,条件概率用attention中的权重来表示。这也是ptr-net最大的特点。
模型解决的问题
原文中提到,这个模型可以用来求一些组合优化问题的近似解。训练过程使用了三种类型问题的样本。
以下问题的描述均来自百度。
凸包问题(convex hull problem)
凸包(convex hull):凸包是一个计算几何(图形学)中的概念。
在一个实数向量空间 V V V中,对于给定集合 X X X,所有包含 X X X的凸集的交集 S S S被称为 X X X的凸包。 X X X的凸包可以用 X X X内所有点( x 1 x_1 x1,… x n x_n xn)的凸组合来构造.
在二维欧几里得空间中,凸包可想象为一条刚好包著所有点的橡皮圈。
用不严谨的话来讲,给定二维平面上的点集,凸包就是将最外层的点连接起来构成的凸多边形,它能包含点集中所有的点。
德劳内三角剖分(Delaunay)
三角剖分的定义:假设 V V V是二维实数域上的有限点集,边 e e e是由点集中的点作为端点构成的封闭线段, E E E为 e e e的集合。那么该点集 V V V的一个三角剖分 T T T=( V V V, E E E)是一个平面图 G G G,该平面图满足条件:
1.除了端点,平面图中的边不包含点集中的任何点。
2.没有相交边。
3.平面图中所有的面都是三角面,且所有三角面的合集是散点集 V V V的凸包。
Delaunay边:假设 E E E中的一条边 e e e(两个端点为 a a a, b b b) e e e若满足下列条件,则称之为Delaunay边:
存在一个圆经过 a a a b b b两点,圆内(注意是圆内,圆上最多三点共圆)不含点集 V V V中任何其他的点,这一特性又称空圆特性。
Delaunay三角剖分:如果点集 V V V的一个三角剖分 T T T只包含Delaunay边,那么该三角剖分称为Delaunay三角剖分。
旅行推销员问题(Travelling Salesman Problem)
TSP:给定一个包含n个点的完全图,每条边都有一个长度,求总长度最短的且每个顶点仅经过一次的封闭回路。
训练过程
总体来说,就是将点集送至encoder,然后decoder输出指针,指向输入序列中的对应点。
有一些训练中的trick:
1、输入点按照顺时针方向输入。
2、在三角剖分问题中,每个三角形的顶点按照升序排列。
阅读笔记 - Pointer Network相关推荐
- LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记)
LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记) 环形扫描骨干网络.动态漂移.一致性驱动的融合 一.重点内容 ...
- Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记
Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...
- 【论文阅读笔记】MFRDet:A single-shot multi-level feature reused neural network for object detection
论文名:A single-shot multi-level feature reused neural network for object detection 引用:Wei L, Cui W, Hu ...
- Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection阅读笔记
Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection阅读笔记 文章标题:A ...
- 《Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network》阅读笔记(二)
<Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network>阅读笔记–翻译 ...
- 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络
论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...
- 毫米波目标检测论文 阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar
毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...
- 指针网络(Pointer network)--学习笔记
一种能够生成 可变大小输出序列 的神经网络架构. 指针网络输出序列的长度取决于输入序列, 这解决了传统序列到序列 (seq2seq) 模型必须固定序列长度的限制. 传统seq2seq:使用输入序列的固 ...
- 【异构图笔记,篇章3】GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding
[异构图笔记,篇章3]GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding 上期回顾 论文信息概览 论 ...
最新文章
- 谷歌最新的PlaNet对强化学习以及迁移学习的意义及启发
- Python模块filecmp 文件比较
- 2_2 递归与分治策略(分治法的基本思想)
- 邀请参加活动的邀请函_圣诞节点灯仪式活动邀请函制作
- 图解机房空调制冷系统
- 查看网关物理地址命令
- java iterator map_Java循环遍历输出map方法
- 技术干货 | 闲鱼:一个优秀的 Push 平台,需要经历怎样的前世今生
- Dubbo的发展历史
- 洛谷 P1816 忠诚题解
- itchat库微信自动回复祝福语
- 洛谷P2580 于是他错误的点名开始了 题解
- 为python写了一个事件机制 - 小川 - 博客园
- Matlab 根号的输入
- C#简单实现office转pdf、pdf转图片
- vscode 中 php 代码格式化插件和其他设置
- Vue3.0的新特性(8)Suspense
- 测试过程中遇到的问题总结
- 【年终总结】2017年下半年年终总结——试着将一切归零,整装再出发
- c语言鸡兔同笼(二)
热门文章
- 华为交换机配置命令集
- yii2 前端资源发布组件(Assets)(一、初步实现)
- 警告毕业生,面试让交培训费的都是骗子,千万别上当!!!
- SimNow CTP 环境备份
- 转载:MDA的一些资源的连接
- 【无标题】如何去写高质量个人简历模板?哪里能下载免费的简历模板? meimg.com
- 深度学习在高光谱图像去噪中的论文大全-一直更新
- 【组会论文记录】2021/3/24(CReST、SELF、SelNLPL、Class-Balanced Loss、Solve PDE with DNN)
- javascript-DOM基础教程
- php发扑克牌,PHP实现随机发放扑克牌