点击上方,选择星标置顶,每天给你送干货

阅读大概需要13分钟

跟随小博主,每天进步一丢丢

文章来源于机器之心

作者:Vered Shwartx

参与:Panda、蛋酱


自然语言处理顶级会议 ACL 2020 已于 7 月 10 日圆满落幕。受到疫情的影响,今年的 ACL 是线上举办的。尽管缺少面对面交流的机会,参会者却获得了在有限的时间内观看更多演讲和参加更多活动的机会。

本文将分享作者 Vered Shwartz 的 ACL 笔记以及对整体趋势的一些讨论。当然,本文不会对 ACL 进行详尽的介绍,内容的选择也是完全基于作者本人的兴趣。

近年来的整体趋势

在开始讨论演讲中的趋势之前,先来看看 ACL 博客公布的整体统计情况。今年,论文投递数量最高的类别排名是:用于 NLP 的机器学习、对话和交互系统、机器翻译、信息抽取、NLP 应用、生成。

每个类别的论文提交数量,来自 ACL 博客

对比前几年情况如何?下面这个来自 Wanxiang Che 的动图生动地展示了自 2010 年来每个类别的变化情况。

图源:https://public.flourish.studio/visualisation/2431551/

整体而言,趋势是从低级任务向高级任务转变,即从词级的句法、句子级的语法、话语到对话。「机器学习」类别稳定增长,这从越来越多基于多任务评估的通用模型论文可以看出。

ACL 2020 趋势

首先,观察到一点「我在 X 任务上对 BERT 模型进行了微调,从而在基准 Y 上实现了性能提升」的论文越来越少了

NLP 研究有一个循环往复的模式:(1)引入新的架构 / 模型,(2)通过改进架构 / 模型或将其应用于不同任务而发表容易取得的成果,(3)发表展现其缺点的分析论文,(4)发布新的数据集。可以说我们目前处于 2 到 3 之间,不过同时其它情况也有发生。再次重申,本文的结论基于作者个人的兴趣,因此很大程度上会滤掉这类论文。因此可以得出一个更温和一点的结论:「ACL 2020 有足够多的论文不属于此类别。」

正在远离大规模有标注数据集

过去两年间,可以看到研究趋势正转向在无标注文本上以自监督方式进行预训练,然后使用(潜在的)更小的特定于任务的数据集进行微调。本届会议上,很多论文研究如何在训练模型时使用更少的监督。这里有一些不是在大数据集上训练的方法及论文例子:

无监督:Yadav et al. 提出了一种基于检索的问答方法,该方法可以迭代式地基于一个数据库来优化查询,从而检索用于回答特定问题的证据。Tamborrino et al. 通过使用一种掩码式语言模型为每个候选答案计算一个可信度分数,在常识多选题任务上得到了出色的结果。

数据增强:Fabbri et al. 提出了一种用于自动化生成用于训练问答模型的 (上下文,问题,答案)三元组的方法。他们检索了与原始数据集中的上下文类似的上下文,然后生成 yes/no 以及模板化的 WH 问题(即 what/when/where/who 等),之后再在合成的三元组上训练模型。Jacob Andreas 提出使用在相似上下文中更常见的短语来替代罕见短语,从而提升神经网络的组成泛化性能。

元学习:Yu et al. 使用了元学习来将用于上下文检测的知识从高资源语言迁移到低资源语言。

主动学习:Li et al. 为共指消解任务开发一种高效的标注框架,其可通过主动学习来选择最有价值的样本进行标注。

语言模型不是全部——检索回来了

我们已经知道语言模型的知识既匮乏又不准确。本届会议中,来自 Kassner and Schütze 与 Allyson Ettinger 的论文表明语言模型对否定不敏感,因此很容易因错误指定的探针或相关但不准确的答案造成混淆。当前正被采用的多种不同方案:

检索:Repl4NLP 研讨会上的两个受邀演讲提到了检索式增强的语言模型。Kristina Toutanova 谈到了谷歌的 REALM 以及使用有关实体的知识来增强语言模型。Mike Lewis 谈到了最近邻语言模型,其可以改善对事实知识的预测结果;另外他还谈到了 Facebook 的 RAG 模型,其将一个生成器和一个检索组件组合到了一起。

使用外部知识库:这已经是多年来的常见做法了。Guan et al. 使用来自常识知识库的知识增强了 GPT-2 模型处理常识任务的能力。Wu et al. 使用了这样的知识库来进行对话生成。

让语言模型具备新能力:Zhou et al. 训练一个语言模型来获取时间知识(比如时间的频率和持续时间),其使用了通过模式和 SRL 的信息提取得到的训练实例。Geva and Gupta 将数值技巧注入到了 BERT 中,其做法是在生成的数值数据上对其进行微调,而这些数据是使用模板和需要数值推理的文本数据生成的。

可解释 NLP

检查注意力权重今年看起来已经不流行了,取而代之的关注重点是生成文本依据,尤其是那些能够反映判别模型决策的依据。Kumar 和 Talukdar 提出了一种为自然语言推断(NLI)预测忠实解释的方法,其方法是为每个标签预测候选解释,然后使用它们来预测标签。Jain et al. 开发了一种忠实的解释模型,其依赖于事后归因(post-hoc)的解释方法(这并不一定忠实)和启发式方法来生成训练数据。为了评估解释模型,Hase 和 Bansa 提出通过测量用户的能力,在有或没有给定解释的前提下来预测模型的行为。

成就 & 局限反思以及对 NLP 未来的思考

ACL 今年有一个主题类别,其主题为「Taking Stock of Where We’ve Been and Where We’re Going(通观现状与展望未来)」,其中有一些发人深省的论文。其它类别的受邀演讲嘉宾和论文也带来了一些见解。如下:

我们求解的是数据集,而非任务。过去几年人们不断提到这样的话,但即便如此,我们的主要范式还是训练大型模型并在众包的测试集上评估它们,而且这个测试集往往与训练集非常近似。来自 Tal Linzen 的荣誉提名主题论文认为我们用大量数据学习的模型在面对人类可以获得的数据量时,可能学不到任何东西,而这些模型在数据中找到的统计学模式可能在人类看来根本无关紧要。他建议说未来我们应该标准化大小适中的预训练语料库,使用专家创建的评估集以及奖励成功的少量次学习。

Kathy McKeown 的主题演讲也提到了这一点,并补充说,排行榜并不总是能帮助该领域的发展。基准通常只体现了分布的头部,但我们还需要看到分布的尾部。此外,分析通用模型(比如语言模型)在具体任务上的进展是很困难的。Bonnie Webber 在她的终身成就奖访谈中强调,我们需要检查数据和分析模型错误。即便只是简单地看看精度和召回率,而不仅仅是聚合 F1 分数,就能帮助我们理解模型的弱点和优势。

当前的模型和数据存在固有的局限性。Bonnie 还说虽然神经网络能够解决不需要深度理解的任务,但更具挑战性的目标是识别隐含的含义和世界知识。除了上面提到的论文,还有一些论文也提到了当前模型的局限性。举个例子,Yanaka et al. 和 Goodwin et al. 都指出神经自然语言理解模型缺乏系统性,几乎不能泛化已学习到的语义现象。Emily Bender 和 Alexander Koller 的最佳主题论文认为仅从形式学习含义是不可能的。Bisk et al. 的预印本论文给出了类似的断言,其提倡使用多模态数据来学习含义。

我们需要远离分类任务。我们已经看到在过去几年,分类和多项选择任务容易研究的证据,模型可通过学习浅度的特定于数据的模式来实现优良的准确度。另一方面,生成任务却难以评估。目前仅有人类评估能提供有信息的指标,但人类评估的成本很高。作为对分类任务的替代,Chen et al. 将自然语言推断(NLI)任务从三类分类转换成了一种概率任务,其目标是回答这样的问题:「给定前提下一个假设为真的概率是多少?」Pavlick and Kwiatkowski 进一步表明,即便人类不同意某些句子对的蕴涵标签,在某些情况下,不同的解读也能为不同的标签提供合理性(而对标签进行平均化处理则可能导致错误)。

我们需要学会应对歧义和不确定性。Ellie Pavlick 在 Repl4NLP 的演讲探讨了在清晰定义语义研究中的目标方面的困难。简单地将语义理论翻译成 NLI 风格的任务注定要失败,因为语言位于且植根于更广阔的语境之中。Guy Emerson 定义了分布的语义所需的性质,其中之一是学习不确定性。Feng et al. 设计了一种对话响应任务和包含一个「none of the above(以上皆不对)」回应的模型。最后,Trott et al. 指出尽管语义任务可用于识别两个具有同样含义的表达,但也可用于识别表述上的差异会如何影响含义。

有关道德伦理的讨论(很复杂)

ACL 在道德伦理方面的进步是非常显著的。前几年,NLP 中道德伦理还少有人研究,但如今却已然是 ACL 的一大类别,而且我们所有人在提交其它类别的论文时也都会考虑伦理道德。事实上,我们这个社区现在开始转向批评那些探讨重要的公平性问题而同时又未能解决其它道德伦理考虑的论文。

我强烈推荐观看 Rachael Tatman 在 WiNLP 研讨会上洞见深入的主题演讲「What I Won’t Build(我不会构建的东西)」。Rachael 说明了她个人不会参与构建的那几类系统,包括监控系统、欺骗与其交互的用户的系统、社会类别监测系统。她提供了一个问题列表,研究者可用来决定是否应该构建某个系统:

  • 该系统将让哪些人获益?

  • 该系统对哪些人有害?

  • 用户可以选择退出吗?

  • 该系统会强化还是弱化系统的不公平性?

  • 该系统总体上会让世界变得更好吗?

Leins et al. 提出了许多有趣但仍待解答的道德伦理问题,比如符合道德伦理的 NLP 研究是怎样的,这应该由谁、通过什么方式决定?模型的预测结果应该由谁负责?ACL 应该尝试将自己定位为道德卫士吗?这篇论文讨论的问题之一是模型的双重使用问题:一个模型既可以用于好的目的,也可以用于坏的目的。事实上,会议期间,针对 Li et al. 的最佳演示论文发生了一场 Twitter 争论(很不幸该争论由一个匿名账号主导)。该论文提出了一个出色的多媒体知识提取系统。

其它值得关注的论文

本文作者还列举其它一些不属于以上类别的论文。

Cocos and Callison-Burch 创建了一个大规模的标注了含义的句子资源,其中的含义是通过同等含义的词进行标注的,比如 bug-microphone 中 bug 是个多义词,这里使用 microphone 进行标注,就固定了其小型麦克风 / 窃听器的含义,而非虫子的含义。

Zhang et al. 提出了一种用于跟踪文本出处的方法,包括其作者和其它来源的影响。Chakrabarty et al. 解决了将带讽刺的句子转译为不带讽刺句子的问题,他还基于对讽刺的极富洞见的观察而构建了一个模型。

Wolfson et al. 将问题理解引入为一个单独的任务,其按照人类的方式通过将复杂问题分解为更简单的问题来进行解答。

Gonen et al. 提出了一种用于测量词义变化的非常直观和可解释的方法,其具体做法为检查词分布的最近邻。

Anastasopoulos and Neubig 表明尽管使用英语作为中心语言来进行跨语言嵌入学习是最佳实践,但却往往是次优的;该论文提议了一些用于选择更优中心语言的一般原则。

最后,Zhang et al. 众包了 Winograd 模式挑战赛的解释,并分析了解决该任务所需的知识类型以及现有模型在每种类别上的成功程度。

总结和其它思考

这些论文和主题演讲给作者带来了一种感觉,即过去几年该领域虽然取得了重大进展,但我们尚未走上正确的方向,我们也没有非常可行的前进之路。作者认为,主题类别的变化具有正面意义,这能鼓励研究者不执着于容易取得的小进步,而是着眼大局。

虽然虚拟会议总有不便之处,但作者希望疫情过后会议回到真人模式时也允许人们以更低的注册费用远程参会。希望明年能真正见到你们!

原文链接:https://medium.com/@vered1986/highlights-of-acl-2020-4ef9f27a4f0c

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读


整理不易,还望给个在看!

一份值得收藏的ACL 2020参会笔记:重要论文与NLP领域的发展趋势解读相关推荐

  1. git reset后本地拉取_一份值得收藏的 Git 异常处理清单

    ? 这是第 54篇不掺水的原创,想要了解更多,请戳上方蓝色字体:政采云前端团队关注我们吧- 本文首发于政采云前端团队博客:一份值得收藏的 Git 异常处理清单 https://www.zoo.team ...

  2. 【开源组件】一份值得收藏的的 MySQL 规范

    转载自  [开源组件]一份值得收藏的的 MySQL 规范 数据命名规范 所有数据库对象名称必须使用小写字母并用下划线分割. 所有数据库对象名称禁止使用 MySQL 保留关键字(如果表名中包含关键字查询 ...

  3. 新年快乐!这是份值得收藏的2017年AI与深度学习要点大全

    若朴 夏乙 编译自 WILDML 量子位 出品 | 公众号 QbitAI 2017已经正式离我们远去. 过去的一年里,有很多值得梳理记录的内容.博客WILDML的作者.曾在Google Brain做了 ...

  4. 一份值得收藏的,互联网电商购物车架构演变案例

    购物车主要作用在于: 和传统卖场类似,方便用户一次选择多件商品去结算. 充当临时收藏夹的功能. 对于商家来说,购物车是向用户推销的最佳场所之一. 早期 ERP拆分 业务服务化拆分 WCS拆分 购物车功 ...

  5. 2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)...

    文末有干货 "Python高校",马上关注 真爱,请置顶或星标 作者:杨鲤萍 工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会 ...

  6. 2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)

    导语:​Github 开源项目技术图 雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...

  7. [转]2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)

    导语:​Github 开源项目技术图 雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...

  8. ACL 2020 亮点摘要

    字幕组双语原文:ACL 2020 亮点摘要 英语原文:Highlights of ACL 2020 翻译:雷锋字幕组(唐里.张超726.情报理论与实践.Danielan) 今年国际计算语言学协会(AC ...

  9. ACL 2020三大奖项出炉!知名学者夫妇曾先后获终身成就奖,时间检验奖回溯95年经典著作...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 自然语言处理顶会ACL 2020今年以线上的形式举办,时间从7月5日至7月10日. 但从投稿数量来看,此次会议热度依旧不减,达到了历年最高的 ...

  10. 谷歌大脑2017总结(Jeff Dean执笔,干货满满,值得收藏)

    李杉 维金 编译自 Google Blog 量子位 出品 | 公众号 QbitAI 谷歌AI Senior Fellow.谷歌大脑负责人Jeff Dean,按照惯例,今天开始发布2017年度的谷歌大脑 ...

最新文章

  1. 《WeCity未来城市2.0白皮书》全文发布
  2. 2017年热度最高的十大技术类技能
  3. PHP获取优酷视频FLV地址
  4. JS Event handler example - event capture and bubble
  5. 移动硬盘改台式机硬盘_如何在台式机或移动设备上离线使用Google云端硬盘
  6. android uboot log,RK3288 Android 8.1系统uboot logo过渡到kernel logo会花一下
  7. ps图像压缩插件:TinyPNG and TinyJPG for Mac 支持ps2021
  8. android自定义radiogroup,Android自定义RadioGroup
  9. C# 微信服务号模板消息中如何换行
  10. jQuery实现tab栏转换
  11. OSS SSL 访问异常
  12. 编程实现激光雷达点云数据提取道路特征
  13. Atitit.编程语言and 自然语言的比较and 编程语言未来的发展
  14. atitit.web 推送实现方案集合
  15. excel批量添加超级链接
  16. BILIBILI 高并发实时弹幕系统那些事(项目开源、架构演变)
  17. c#获取百度服务器时间
  18. Android 5.1添加字库
  19. 吐血整理-周志华演讲合集
  20. Vue 组件封装之 Content 列表(处理多行输入框 textarea)

热门文章

  1. bzoj1293: [SCOI2009]生日礼物
  2. RedHat Linux设置yum软件源为本地ISO
  3. 用 Javascript 验证表单(form)中多选框(checkbox)值
  4. 一个很好的反选的例子
  5. 51nod 1005 1027 1029 高精度
  6. easyui弹出加载遮罩层(转)
  7. Linux 僵尸进程查杀
  8. [SQL SERVER] 跨库查询--分布式查询
  9. ZeroC IceGrid demo构建(继承Ice::Application类)
  10. C编程语言中整型变量在内存中的存储形式介绍