主要内容

  • 论文内容
    • 原有模型的问题(Issues in Seq2Seq/RNN)
    • 模型架构(Architecture)
    • 模型解决的问题
      • 凸包问题(convex hull problem)
      • 德劳内三角剖分(Delaunay)
      • 旅行推销员问题(Travelling Salesman Problem)
      • 训练过程

论文内容

原有模型的问题(Issues in Seq2Seq/RNN)

传统的Seq2Seq结构或是单RNN的结构在不少领域都取得了SOTA效果,但这些结构都有一个特性,就是输出的词典大小是我们预设好的。无法应对变长的词典。很多问题都会使用变长的词典,例如本文中提到的三个组合优化问题,均要求我们从给定的输入找到答案。而每一次输入的数据都是有变化的。
本文提出的结构能够有效解决这个问题。并且在遇到超过训练样本最大长度的新数据时,也具备良好的泛化能力。

模型架构(Architecture)

从架构上来看,模型与传统的Seq2Seq是一样的,唯一的区别在于Attention机制的应用。
原文用AddictiveAttention做例子,原本attention机制是对于encoder的每一个时间步计算一个权重。然后将每一步的隐状态做加权求和,然后与decoder的隐状态拼接,作为下一步decoder的输入。
而在本文中,attention机制中计算的权重作为“指针”使用,实际上也就是输出了一个关于encoder每一个位置的分布。然后根据分布直接从输入序列中拿对应的词汇作为输入。
原文中形式化的描述:
假设输入序列为 P P P, v v v为Addictive attention中对齐模型的隐状态,encoder的隐状态为 ( e 1 , e 2 , e 3 . . . . . . e n ) (e_1,e_2,e_3......e_n) (e1​,e2​,e3​......en​),decoder的隐状态为 ( d 1 , d 2 , d 3 . . . . . . d m ( p ) ) (d_1,d_2,d_3......d_{m(p)}) (d1​,d2​,d3​......dm(p)​)
Addictive attention:

u j i = v T t a n h ( W 1 e j + W 2 d i ) {u_j}^i = v^Ttanh(W_1e_j+W_2d_i) uj​i=vTtanh(W1​ej​+W2​di​)其中 j ∈ ( 1 , 2 , 3...... n ) j\in(1,2,3......n) j∈(1,2,3......n)

a j = s o f t m a x ( u j i ) a_j = softmax({u_j}^i) aj​=softmax(uj​i)

d i ′ = ∑ i = 1 n a i e i {d_i}^{'}=\sum_{i\;=\;1}^na_ie_i di​′=∑i=1n​ai​ei​

ptr-net:

u j i = v T t a n h ( W 1 e j + W 2 d i ) {u_j}^i = v^Ttanh(W_1e_j+W_2d_i) uj​i=vTtanh(W1​ej​+W2​di​)其中 j ∈ ( 1 , 2 , 3...... n ) j\in(1,2,3......n) j∈(1,2,3......n)

p ( c i ∣ c 1 , c 2 , c 3 . . . . . . c i − 1 ) = s o f t m a x ( u i ) p(c_i\vert c_1,c_2,c_3......c_{i-1})\;=\;softmax(u^i) p(ci​∣c1​,c2​,c3​......ci−1​)=softmax(ui)

可以看到,条件概率用attention中的权重来表示。这也是ptr-net最大的特点。

模型解决的问题

原文中提到,这个模型可以用来求一些组合优化问题的近似解。训练过程使用了三种类型问题的样本。
以下问题的描述均来自百度。

凸包问题(convex hull problem)

凸包(convex hull):凸包是一个计算几何(图形学)中的概念。
在一个实数向量空间 V V V中,对于给定集合 X X X,所有包含 X X X的凸集的交集 S S S被称为 X X X的凸包。 X X X的凸包可以用 X X X内所有点( x 1 x_1 x1​,… x n x_n xn​)的凸组合来构造.
在二维欧几里得空间中,凸包可想象为一条刚好包著所有点的橡皮圈。
用不严谨的话来讲,给定二维平面上的点集,凸包就是将最外层的点连接起来构成的凸多边形,它能包含点集中所有的点。

德劳内三角剖分(Delaunay)

三角剖分的定义:假设 V V V是二维实数域上的有限点集,边 e e e是由点集中的点作为端点构成的封闭线段, E E E为 e e e的集合。那么该点集 V V V的一个三角剖分 T T T=( V V V, E E E)是一个平面图 G G G,该平面图满足条件:
1.除了端点,平面图中的边不包含点集中的任何点。
2.没有相交边。
3.平面图中所有的面都是三角面,且所有三角面的合集是散点集 V V V的凸包。

Delaunay边:假设 E E E中的一条边 e e e(两个端点为 a a a, b b b) e e e若满足下列条件,则称之为Delaunay边:
存在一个圆经过 a a a b b b两点,圆内(注意是圆内,圆上最多三点共圆)不含点集 V V V中任何其他的点,这一特性又称空圆特性。

Delaunay三角剖分:如果点集 V V V的一个三角剖分 T T T只包含Delaunay边,那么该三角剖分称为Delaunay三角剖分。

旅行推销员问题(Travelling Salesman Problem)

TSP:给定一个包含n个点的完全图,每条边都有一个长度,求总长度最短的且每个顶点仅经过一次的封闭回路。

训练过程

总体来说,就是将点集送至encoder,然后decoder输出指针,指向输入序列中的对应点。

有一些训练中的trick:
1、输入点按照顺时针方向输入。
2、在三角剖分问题中,每个三角形的顶点按照升序排列。

阅读笔记 - Pointer Network相关推荐

  1. LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记)

    LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记) 环形扫描骨干网络.动态漂移.一致性驱动的融合 一.重点内容 ...

  2. Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记

    Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...

  3. 【论文阅读笔记】MFRDet:A single-shot multi-level feature reused neural network for object detection

    论文名:A single-shot multi-level feature reused neural network for object detection 引用:Wei L, Cui W, Hu ...

  4. Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection阅读笔记

    Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection阅读笔记 文章标题:A ...

  5. 《Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network》阅读笔记(二)

    <Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network>阅读笔记–翻译 ...

  6. 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络

    论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...

  7. 毫米波目标检测论文 阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar

    毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...

  8. 指针网络(Pointer network)--学习笔记

    一种能够生成 可变大小输出序列 的神经网络架构. 指针网络输出序列的长度取决于输入序列, 这解决了传统序列到序列 (seq2seq) 模型必须固定序列长度的限制. 传统seq2seq:使用输入序列的固 ...

  9. 【异构图笔记,篇章3】GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding

    [异构图笔记,篇章3]GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding 上期回顾 论文信息概览 论 ...

最新文章

  1. 谷歌最新的PlaNet对强化学习以及迁移学习的意义及启发
  2. Python模块filecmp 文件比较
  3. 2_2 递归与分治策略(分治法的基本思想)
  4. 邀请参加活动的邀请函_圣诞节点灯仪式活动邀请函制作
  5. 图解机房空调制冷系统
  6. 查看网关物理地址命令
  7. java iterator map_Java循环遍历输出map方法
  8. 技术干货 | 闲鱼:一个优秀的 Push 平台,需要经历怎样的前世今生
  9. Dubbo的发展历史
  10. 洛谷 P1816 忠诚题解
  11. itchat库微信自动回复祝福语
  12. 洛谷P2580 于是他错误的点名开始了 题解
  13. 为python写了一个事件机制 - 小川 - 博客园
  14. Matlab 根号的输入
  15. C#简单实现office转pdf、pdf转图片
  16. vscode 中 php 代码格式化插件和其他设置
  17. Vue3.0的新特性(8)Suspense
  18. 测试过程中遇到的问题总结
  19. 【年终总结】2017年下半年年终总结——试着将一切归零,整装再出发
  20. c语言鸡兔同笼(二)

热门文章

  1. 华为交换机配置命令集
  2. yii2 前端资源发布组件(Assets)(一、初步实现)
  3. 警告毕业生,面试让交培训费的都是骗子,千万别上当!!!
  4. SimNow CTP 环境备份
  5. 转载:MDA的一些资源的连接
  6. 【无标题】如何去写高质量个人简历模板?哪里能下载免费的简历模板? meimg.com
  7. 深度学习在高光谱图像去噪中的论文大全-一直更新
  8. 【组会论文记录】2021/3/24(CReST、SELF、SelNLPL、Class-Balanced Loss、Solve PDE with DNN)
  9. javascript-DOM基础教程
  10. php发扑克牌,PHP实现随机发放扑克牌