本文介绍了一种用于自然语言语句匹配的模型:BiMPM

Reference:arXiv:1702.03814v3 [cs.AI] 14 Jul 2017

在三种任务上达到了sota

  1. paraphrase identification 释义识别
  2. natural language inference 自然语言推断
  3. answer sentence select 答案语句选择

模型


从图上可以看到整个模型分为5层,中间有交互,并且都是使用的双向LSTM,定义了一个特殊的
操作,文中会给出解释

Word Representation Layer

word representation层有两个词嵌入操作,一个是直接使用pre-trained的GloVe词向量,然后还使用了character-composed embedding,具体的来说,通过将单词中的每个字符(表示为字符嵌入)输入一个LSTM网络,计算字符的组合embedding,字符嵌入将使用随机初始化生成,并与NLSM任务中的其他网络参数一起学习。

Context Representation Layer


这一层非常简单,就是把前一层的词嵌入丢到双向LSTM里面

Matching Layer


该层的目标是将一个句子的每个上下文嵌入(time step)与另一个句子的所有上下文嵌入(time step)进行比较

这个跟卷积(或者说互相关)同一个符号的操作,是由以下四种操作构成的

Full-Matching

Maxpooling-Matching

Attentive-Matching


Max-Attentive-Matching

Aggregation Layer


该层用于将两个匹配向量序列聚合为一个固定长度的匹配向量。

Prediction Layer


该层的目的是评估概率分布 Pr(y∣P,Q)Pr(y\mid{P,Q})Pr(yP,Q)

实验

评价

总体读下来感觉首先是表示层word embedding和char embedding一起使用,在这里相对于只用一种增强了特征表达能力,然后进入BiLSTM层进一步编码

可能是matching layer的四个猛如虎操作增强了表达能力?(反正也是很玄学)

能一次性在三种任务上达到sota,说明这个model确实是work的,根据free launch定理,说明这个model的语言理解能力确实超越了之前的模型

Raki的读paper小记:Bilateral Multi-Perspective Matching for Natural Language Sentences相关推荐

  1. 相似度:多边视角:2017:Bilateral Multi-Perspective Matching for Natural Language Sentences

    Bilateral Multi-Perspective Matching for Natural Language Sentences 以前的方法要么是从单一方向匹配句子,要么只应用单一的粒度(逐字或 ...

  2. Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models

    Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...

  3. Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK

    Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...

  4. Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

    Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...

  5. Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

    Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...

  6. Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks

    Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...

  7. Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets

    Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...

  8. Stetman读paper小记:ATTEQ-NN

    注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...

  9. Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning

    之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...

  10. Bilateral Multi-Perspective Matching for Natural Language Sentences---读书笔记

    自然语言句子的双向.多角度匹配,是来自IBM 2017 年的一篇文章.代码github地址:https://github.com/zhiguowang/BiMPM 摘要 这篇论文主要提出了一个双向多角 ...

最新文章

  1. 高效的scrum敏捷研发工具--Leangoo
  2. JCIM| 基于双向RNN的分子生成模型
  3. python battleship_codecademy_python_Battleship!
  4. react安装_「React实战」三分钟搭建React开发环境
  5. 如何在移动端复制到剪切板
  6. Services overview
  7. Mongodb 笔记01 MongoDB 简介、MongoDB基础知识、启动和停止MongoDB
  8. microsoft visual c++ 编译c语言,Microsoft Visual C++ 程序的部署方法
  9. RK平台LCD调试说明
  10. NoSQL数据库应用
  11. 毕设-基于SpringBoot企业人事管理系统
  12. Android监听系统来电,弹出提示窗口
  13. unity世界坐标与相对坐标转换
  14. 有道云笔记、石墨笔记、 Effie …采编怎么选?
  15. 大型软件外包项目的开发流程
  16. C语言电池电压检测程序,电池温度检测原理和示例代码
  17. 三国杀的联想-前端页面进度条的生成
  18. 苹果自动驾驶项目,黄了吗
  19. 米家电磁炉显示e10_真香定律,米家电磁炉也难逃
  20. Linux-C 文件长度的获取方法

热门文章

  1. 最全的c#日期函数 winform
  2. cisco用户隔离配置
  3. cocos 创建一个js项目_如何使用Cocos2d-JS引擎快速开发一个微信游戏?
  4. 博弈论——斐波那契博弈Fibonacci Game
  5. Linux怎么删掉ftp服务器,Linux怎么删掉ftp服务器
  6. oracle varchar 不等于,为什么Oracle的varchar排序顺序与varchar比较的行为不匹配?
  7. html全屏代码怎么写,JS实现全屏的四种写法
  8. matlab 频率分布直方图_小葱品题丨高考必考内容—频率分布直方图?!教你三步得满分!...
  9. 在python中使用最小二乘法画出拟合曲线_Python基于最小二乘法实现曲线拟合示例...
  10. 任正非谈鸿蒙系统研究,任正非谈鸿蒙系统 有优势 有信心打造生态