QuIP

  • Motivation:
    • Method:
    • Tips:
    • Results:
    • My Thoughts:

论文地址:https://arxiv.org/pdf/2106.08190.pdf

Motivation:

传统的预训练方式都是基于上下文信息理解的(BERTs),能否考虑改变这一种方式,使用问答的形式来训练模型(原文中未说明灵感来源,笔者估计可能与QA任务近年的发展,以及从人类学习方式中的观察有关)

Method:

  1. (核心方法)预训练阶段在使用RoBERTa representation的基础上,通过大量的QA pairs数据对模型进行预训练:

其中,q侧使用两个MLP模型(start,end)对CLS进行表示,p侧使用token-level级embedding表示。
训练目标是进行如下预测:对于给定q,在文本c中找到answer对应的start与end位置
同时引入知识蒸馏的方法,总体预训练的Loss为:
2. 这种预训练模型在论文中被实现证明在四种下游任务中有效:
1)paraphrase排序:通过计算候选句和目标局的向量相似度来实现
2)paraphrase分类:对输入的句子对在最后八层的网络输出进行logistics回归
3)命名体识别:通过问题(what is …?)初始化embedding,再对embedding在相应数据集上进行fine tuning(与4)相似)
4)zero-shot情感分类:通过对相应问题(why is … good?)进行回答的方式进行:

Tips:

  1. 以QA任务为灵感,直接改变了预训练方法

Results:

  1. 在所述的四项任务的官方数据集(SQuAD、WMT、CoNLL等)上的zero-shot/few-shot的表现都达到了SOTA

My Thoughts:

  1. 论文证明了使用这种QA的pre-training的方法效果还行,且在相关任务的zero-shot/few-shot表现上很突出
  2. 比较关心这种方法的embedding质量检测和效率实验(论文中未展示,速度应该会慢,但具体慢多少?)

(ps:本文图片均来自于原paper,侵删)

爬在NLP的大道上——Question Answering Infused Pre-training of General-Purpose Contextualized Representations相关推荐

  1. 文献阅读6-Entity-Relation Extraction as Multi-turn Question Answering(实体关系联合抽取,层次标签依赖关系,multi-turn QA)

    文章目录 abstract 1.Introduction 3.相关工作 2.2MRC(机器阅读理解) 2.3 非QA->QA 3.数据集和任务 3.1别人的数据集 3.2我们建立的数据集RESU ...

  2. 论文翻译:《Improved Neural Relation Detection for Knowledge Base Question Answering》

    该论文于2017年发表在ACL,主要讲了智能问答在sq和wq两个数据集上的性能提升,本人研究生方向为这个,故翻译此论文,希望对大家有用. 论文地址:Improved Neural Relation D ...

  3. Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记

    Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记 一.Abstract 二.引言 三.R ...

  4. acl 2020 Question Answering

    文章目录 2020 Fluent Response Generation for Conversational Question Answering PLATO: Pre-trained Dialog ...

  5. Stacked Attention Networks for Image Question Answering(用于图像问答的堆叠注意力网络)

    Stacked Attention Networks for Image Question Answering Abstract 1.introduction 2. 相关工作 略 3.堆叠注意力网络( ...

  6. Unsupervised Question Answering by Cloze Translation

    题目:完形填空转换的无监督问答 作者:Patrick Lewis 发布地方:arXiv 面向任务:问题生成 论文地址:https://arxiv.org/abs/1906.04980 论文代码:Git ...

  7. 【论文分享】Relation-Aware Graph Attention Network for Visual Question Answering

    分享一篇nlp领域运用注意力机制设计视觉问答系统的文章,只是对文章进行翻译以及简单的归纳. 目录 二.动机 三.方法 1.问题定义 2.模型结构 2.1 图的构建 2.2 关系编码器 2.3 多模融合 ...

  8. Interactive natural language question answering over knowledge graphs论文导读

    论文导读 目录 Abstract introduction 1 抛砖引的玉(砖见于图谱构建综述吧) 2 现有方法介绍 3 问题驱动 4 挑战与贡献 Interaction approach overv ...

  9. R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

    博主水平有限,大部分为机翻 摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...

最新文章

  1. RabbitMQ(四):RabbitMQ与Spring Boot简单整合 快速尝鲜版
  2. android 添加日程失败,Andriod向系统日历添加日程
  3. python 轨迹识别
  4. python制作工资计算器-Python制作个税计算器
  5. 如何确认软件测试结束的标准(系统可以上线)转
  6. 怎么查看和修改 MySQL 的最大连接数?
  7. PageRank算法简介及Map-Reduce实现
  8. ubunu安装软件的一个错误
  9. 英寸和厘米的交互python_Python的新手-尝试将厘米编码为英寸,反之亦然
  10. OJ1075: 聚餐人数统计(C语言)
  11. java 流媒体服务器Red5 FQA
  12. nginx 优化(突破十万并发)
  13. 库克:iPhone 12更新换代用户数达到顶峰
  14. 【深度学习】循环神经网络(RNN)的tensorflow实现
  15. 科学计数怎么转换成数字_勒夫迈 | 激光尘埃粒子计数器传感器工作原理
  16. Simulink与Flightgear联合仿真详细教程
  17. 城市公交、地铁站点和线路数据纠偏与矢量化
  18. Java之Joda工具包处理时间的7点总结分享
  19. 在Quartus中调用Modelesim时仿真出现“Error:Failed to find design unit work“可能的解决方法
  20. Java 水印操作的设计与实现

热门文章

  1. 无人机倾斜摄影测量影像处理关键技术
  2. C语言文件输入输出函数总结
  3. analy32.xll下载_Android Studio 4.0添加了Motion Editor和Build Analyzer
  4. 【软考软件评测师】2020年下案例分析历年真题
  5. polkit启动失败_CentOS Linux 7.4中polkit服务启动失败
  6. Win10系统Administrator忘记开机密码怎么办?
  7. 苹果手机用什么软件测试续航,苹果哪个系统最耗电 iOS10/11/12/13电池续航测试
  8. 建立FAT文件系统学习笔记
  9. MQTT树莓派小车局域网控制移动
  10. 按键精灵电脑版对接百度ai,告别字库(文字识别篇)