Raki的读paper小记:Bilateral Multi-Perspective Matching for Natural Language Sentences
本文介绍了一种用于自然语言语句匹配的模型:BiMPM
Reference:arXiv:1702.03814v3 [cs.AI] 14 Jul 2017
在三种任务上达到了sota
- paraphrase identification 释义识别
- natural language inference 自然语言推断
- answer sentence select 答案语句选择
模型
从图上可以看到整个模型分为5层,中间有交互,并且都是使用的双向LSTM,定义了一个特殊的
操作,文中会给出解释
Word Representation Layer
word representation层有两个词嵌入操作,一个是直接使用pre-trained的GloVe词向量,然后还使用了character-composed embedding,具体的来说,通过将单词中的每个字符(表示为字符嵌入)输入一个LSTM网络,计算字符的组合embedding,字符嵌入将使用随机初始化生成,并与NLSM任务中的其他网络参数一起学习。
Context Representation Layer
这一层非常简单,就是把前一层的词嵌入丢到双向LSTM里面
Matching Layer
该层的目标是将一个句子的每个上下文嵌入(time step)与另一个句子的所有上下文嵌入(time step)进行比较
这个跟卷积(或者说互相关)同一个符号的操作,是由以下四种操作构成的
Full-Matching
Maxpooling-Matching
Attentive-Matching
Max-Attentive-Matching
Aggregation Layer
该层用于将两个匹配向量序列聚合为一个固定长度的匹配向量。
Prediction Layer
该层的目的是评估概率分布 Pr(y∣P,Q)Pr(y\mid{P,Q})Pr(y∣P,Q)
实验
评价
总体读下来感觉首先是表示层word embedding和char embedding一起使用,在这里相对于只用一种增强了特征表达能力,然后进入BiLSTM层进一步编码
可能是matching layer的四个猛如虎操作增强了表达能力?(反正也是很玄学)
能一次性在三种任务上达到sota,说明这个model确实是work的,根据free launch定理,说明这个model的语言理解能力确实超越了之前的模型
Raki的读paper小记:Bilateral Multi-Perspective Matching for Natural Language Sentences相关推荐
- 相似度:多边视角:2017:Bilateral Multi-Perspective Matching for Natural Language Sentences
Bilateral Multi-Perspective Matching for Natural Language Sentences 以前的方法要么是从单一方向匹配句子,要么只应用单一的粒度(逐字或 ...
- Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...
- Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...
- Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...
- Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)
Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...
- Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
- Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...
- Stetman读paper小记:ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
- Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
- Bilateral Multi-Perspective Matching for Natural Language Sentences---读书笔记
自然语言句子的双向.多角度匹配,是来自IBM 2017 年的一篇文章.代码github地址:https://github.com/zhiguowang/BiMPM 摘要 这篇论文主要提出了一个双向多角 ...
最新文章
- 高效的scrum敏捷研发工具--Leangoo
- JCIM| 基于双向RNN的分子生成模型
- python battleship_codecademy_python_Battleship!
- react安装_「React实战」三分钟搭建React开发环境
- 如何在移动端复制到剪切板
- Services overview
- Mongodb 笔记01 MongoDB 简介、MongoDB基础知识、启动和停止MongoDB
- microsoft visual c++ 编译c语言,Microsoft Visual C++ 程序的部署方法
- RK平台LCD调试说明
- NoSQL数据库应用
- 毕设-基于SpringBoot企业人事管理系统
- Android监听系统来电,弹出提示窗口
- unity世界坐标与相对坐标转换
- 有道云笔记、石墨笔记、 Effie …采编怎么选?
- 大型软件外包项目的开发流程
- C语言电池电压检测程序,电池温度检测原理和示例代码
- 三国杀的联想-前端页面进度条的生成
- 苹果自动驾驶项目,黄了吗
- 米家电磁炉显示e10_真香定律,米家电磁炉也难逃
- Linux-C 文件长度的获取方法
热门文章
- 最全的c#日期函数 winform
- cisco用户隔离配置
- cocos 创建一个js项目_如何使用Cocos2d-JS引擎快速开发一个微信游戏?
- 博弈论——斐波那契博弈Fibonacci Game
- Linux怎么删掉ftp服务器,Linux怎么删掉ftp服务器
- oracle varchar 不等于,为什么Oracle的varchar排序顺序与varchar比较的行为不匹配?
- html全屏代码怎么写,JS实现全屏的四种写法
- matlab 频率分布直方图_小葱品题丨高考必考内容—频率分布直方图?!教你三步得满分!...
- 在python中使用最小二乘法画出拟合曲线_Python基于最小二乘法实现曲线拟合示例...
- 任正非谈鸿蒙系统研究,任正非谈鸿蒙系统 有优势 有信心打造生态