点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Pavel Gladkov

编译:ronghuaiyang

导读

EMNLP 2019中一些和BERT相关的很不错的论文。

BERT at EMNLP 2019

自然语言处理的经验方法会议(EMNLP)于 2019 年 11 月 3 日至 11 月 7 日在香港举行。有很多有趣的论文,但我想强调一下 BERT 的论文。

揭露 BERT 的黑暗秘密

http://arxiv.org/abs/1908.08593

在这篇论文中,来自马萨诸塞大学洛厄尔分校的研究人员研究了 BERT 的 layer 和 head 的自我注意机制。用到的数据集是 GLUE 任务的子集:MRPC、STS-B、SST-2、QQP、RTE、QNLI、MNLI。

实验:

  • BERT 中特定关系的 head

  • fine-tuning 之后自注意力模式的改变

  • 语言特征的注意力机制

  • Token-to-token 的注意力机制

  • 关闭 head 的自注意力机制

用于神经网络训练的典型的自注意类型。每个图像上的两个轴表示输入样本的BERT tokens,颜色表示绝对注意力权重(深色表示更大的权重)。前三种类型最可能与预训练的语言模型相关,而后两种类型可能编码语义和语法信息。

有趣的发现:

BERT 模型明显参数化过度。在不同的 head 中有限的注意力模式是有重复的。因此,禁用某些 head 并不会导致准确率下降,而是会提高性能。

很有趣。这就是为什么 distilling BERT 是有意义的。

可视化和理解 BERT 的有效性

http://arxiv.org/abs/1908.05620

这是另一篇关于用微软研究院的很酷的可视化工具来理解 BERT 的性能的论文。

在四个数据集上从头开始训练的训练损失曲面(顶部)和对BERT进行finetune的训练损失曲面(底部)。与随机初始化相比,预训练可以得到更泛化的优化,并简化了优化过程。

上图清晰地展示了本文的主要思想:

  • finetune BERT 的训练损失沿优化方向呈单调递减趋势,有利于优化,加速训练收敛

  • finetune 过程对过拟合更加鲁棒

  • 预训练模型可以获得更平更宽的优化值

所以,不要从头开始训练 BERT 完成你的任务。finetune 更好。

用耐心的知识蒸馏来对 BERT 模型进行压缩

http://arxiv.org/abs/1908.09355

微软还有一篇关于知识蒸馏的论文。提出了一种通过耐心的知识蒸馏将大 BERT 模型压缩成浅 BERT 模型的新方法。该方法声称是第一个使用蒸馏的方法,不仅用于输出分布,而且用于“教师”的隐藏状态。此外,“student”只尝试模仿[CLS] token 的表示形式。与其它蒸馏方法相比,BERT-PKD 比 DistilBERT 好,但比 TinyBERT 差。

Sentence-BERT:使用 Siamese BERT-Networks 来得到句子嵌入

http://arxiv.org/abs/1908.10084

Code: https://github.com/UKPLab/sentence-transformers

问题如下:BERT 的嵌入是否适合语义相似度搜索?本文证明了 BERT 可以开箱即用的将句子映射到一个向量空间,而这个向量空间不太适合用于余弦相似度等常见的相似度度量。其性能比一般的 GloVe 嵌入差。为了克服这一缺点,提出了 Sentence-BERT (SBERT)。SBERT 在 siamese 或 triplet 网络架构中对 BERT 进行了 finetune。

具有分类目标函数的SBERT架构,例如用于对SNLI数据集进行finetune。两个BERT网络都有各自的权值(siamese网络结构)。

Beto, Bentz, Becas: BERT 惊人的跨语言有效性

http://arxiv.org/abs/1904.09077

本文探讨了多语言 BERT 作为一种零距离语言迁移模型的跨语言潜能。

长话短说:BERT 有效地学习了良好的多语言表示,在各种任务中具有很强的跨语言零样本的迁移性能。

—END—

英文原文:https://towardsdatascience.com/bert-at-emnlp-2019-46db6c2e59b2

备注:公众号菜单包含了整理了一本AI小抄非常适合在通勤路上用学习

往期精彩回顾2019年公众号文章精选适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(第一部分)备注:加入本站微信群或者qq群,请回复“加群”加入知识星球(4500+用户,ID:92416895),请回复“知识星球”

喜欢文章,点个在看

EMNLP 2019中和BERT相关的一些论文介绍相关推荐

  1. 投稿2877篇,EMNLP 2019公布4篇最佳论文

    整理 | AI科技大本营(ID:rgznai100) 近日,自然语言处理领域的顶级会议之一EMNLP 2019公布了年度最佳论文. EMNLP是由国际语言学会(ACL)下属的SIGDAT小组主办的自然 ...

  2. 读8篇论文,梳理BERT相关模型进展与反思

    作者 | 陈永强 来源 |  微软研究院AI头条(ID:MSRAsia) [导读]BERT 自从在 arXiv 上发表以来获得了很大的成功和关注,打开了 NLP 中 2-Stage 的潘多拉魔盒.随后 ...

  3. 8篇论文梳理BERT相关模型进展与反思 | MSRA出品

    原作:MSRA陈永强  量子位 授权转载 | 公众号 QbitAI BERT 自从在 arXiv 上发表以来获得了很大的成功和关注,打开了 NLP 中 2-Stage 的潘多拉魔盒. 随后涌现了一大批 ...

  4. bert 是单标签还是多标签 的分类_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...

    原文: Label-Specific Document Representation for Multi-Label Text Classification(EMNLP 2019) 多标签文本分类 摘要: ...

  5. BERT相关论文、文章和代码资源汇总

    转自:http://www.52nlp.cn/tag/transformer BERT相关论文.文章和代码资源汇总 4条回复 BERT最近太火,蹭个热点,整理一下相关的资源,包括Paper, 代码和文 ...

  6. 【自然语言处理NLP】一文带你了解EMNLP国际会议 EMNLP2022--EMNLP2016 国际顶会论文列表

    来源: AINLPer 微信公众号(每日论文干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2022-09-27 引言 之前整理 历年NeurIPS的论文集给大家分享 ,很多小 ...

  7. 解读 | 2019年10篇计算机视觉精选论文(中)

    导读:2019 年转眼已经接近尾声,我们看到,这一年计算机视觉(CV)领域又诞生了大量出色的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力.因此,我们精选了 2019 年十大 ...

  8. EMNLP 2019 | 大规模利用单语数据提升神经机器翻译

    BDTC大会官网:https://t.csdnimg.cn/q4TY 作者 | 吴郦军.夏应策 来源 | 微软研究院AI头条(ID:MSRAsia) 编者按:目前,目标语言端的无标注单语数据已被广泛应 ...

  9. 计算机软考高级论文,【2019年软考高项论文一定要避开这些坑】- 环球网校

    [摘要]环球网校分享的"2019年软考高项论文一定要避开这些坑",以下介绍了软件水平考试备考建议供大家参考,更多资料敬请关注环球网校软件水平考试频道,网校会及时更新相关资料-- 2 ...

最新文章

  1. 《统一沟通-微软-实战》-5-部署-SharePoint Server 2010
  2. web release (bat tool)
  3. TensorFlow 常见错误与解决方法——长期不定时更新
  4. exception: access violation reading 0xFFFFFFFFFFFFFFFF
  5. Python程序设计题解【蓝桥杯官网题库】 DAY13-算法训练
  6. Linux 用户管理命令笔记
  7. java嵌入groovy脚本,java-如何捕获传递给Groovy脚本的参数?
  8. 正确地实现以太币转账
  9. 预编译sql查询语句_频繁查询重新编译– SQL查询性能杀手–检测
  10. 学习强化学习无法避开的两个词:Model-Based与Model-Free
  11. python上传Excel文件
  12. 【USB电压电流表】基于STM32F103C8T6 for Arduino
  13. Windows命令行WINRAR压缩和解压缩
  14. Android创建圆形或圆角按钮Button 真菜鸟食用
  15. week6 day4 并发编程之多线程 理论
  16. 一台服务器控制上百个抖音账号,怎么批量管理上百个抖音,抖音mcn一键高效运营软件...
  17. php处理小米广告平台API上报方案对接(主要是APP下载)
  18. fragment 中调用getactivity()的时候报 nullpoint错误
  19. Clang与GCC的区别
  20. 一个移动光猫能连几个路由器?

热门文章

  1. Spring MVC的工作原理,我们来看看其源码实现
  2. 使用git下载giuhub中的项目
  3. Node.js HTTPS
  4. 【unity基础系列】1、unity Texture Type设置为Advanced时纹理的格式列表
  5. The operation couldn’t be completed. (LaunchServicesError error 0.)
  6. java 字符串 加密_如何用JAVA实现字符串简单加密解密?
  7. 撰写科技奖励申报材料的“思路”“要点”与“技巧”
  8. 2021-11-09类作为成员变量类型
  9. Python 3.9.1 安装教程
  10. tiptop 编译运行_tiptop客制规范总结