一种完全无监督的基于BERT的句法分析方法 —— 扰动掩码(Perturbed Masking)

0. 背景

论文标题: Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT

作者:吴志勇(香港大学)等

1. 简介

BERT在各大leaderboard上的横扫带火了几个大的研究方向,一是如何训练一个更强、更快的语言模型,二是如何在下游任务上加入BERT来提升模型的表现,以及一个相对小众的,但是大家都比较感兴趣的问题:为啥BERT效果这么棒?

在最近召开的ACL会议上,来自香港大学和华为诺亚方舟实验室的研究人员提出了一种无监督的探索BERT可解释性的方法——扰动掩码(Perturbed Masking)。这里对该文章进行解读,我们会首先概述一下相关背景知识并介绍有监督的可解释性研究的做法及其弊端,然后以一个例子来介绍文中提出的扰动掩码的具体做法,并在文末展望一下这项技术的可能的应用。

2. 背景: 预训练语言模型中蕴藏的语言学知识

人类的沟通交流是通过一段一段的文字来实现的,但是在这简单的从左往右的序列背后,其实包含了很多复杂的语言结构。比如说最简单的断句,“一位友好的哥谭市民”,你既可以断成“一位/友好的/哥谭/市民”,也可以断成“一位/友好/的哥/谭市民”。更复杂的结构还有比如依存句法(下图),和成分句法。

过往的很多研究表明,将这些语言学知识引入到神经网络当中,能够显著地提升模型的性能。于是有的研究者不禁想:BERT这么强大,有没有可能就是它通过自监督(self-supervised)训练从纯文本中学到这些知识?

3. 背景: 基于有监督Probing的可解释性研究

为了验证上面这个想法,研究者们提出了一种叫做probing的技术。我们延续上面那个例子来看看如何利用probing探究BERT有没有学习到依存句法知识。具体做法如下图:

1. 首先是把这个句子输入到BERT当中,并拿到每个词的向量表达。

2. 假设我们想知道BERT有没有捕捉到“一位”和“友好”这两个词之间的关系,我们就把他俩的向量(e1,e2),输入到一个多层感知机当中。

3. 我们的目标是经过训练之后,看这个简单的感知机能不能正确地分类识别出他们之间的主谓关系。

研究者们认为,如果经过训练之后,这个网络能达到很高的分类准确率,就可以说明BERT确实是学到了句法的依存知识。这里面蕴含的一个假设是:这个多层感知机只含有很少量的参数,并不足以完全学会这种依存关系,所以高准确率要被归功于模型本身。

但是最近的一些研究(John Hewitt et al., 2019)表明,事情并没有那么简单.

他们在EMNLP2019的论文中指出,尽管这些引入的网络只含有非常少量的参数,但它们完全有可能记住需要probing的任务。换句话说,如果使用这样有监督的形式来解释BERT的话,你很难界定到底是BERT本身,还是你引入的参数学到了这些语言学知识。为了避免这个问题,我们提出了一种完全无监督的基于BERT的句法分析方法 —— 扰动掩码(Perturbed Masking)

4. 扰动掩码(Perturbed Masking)

整体思想很直接,句法结构,其实本质上描述的是词和词之间的某种关系,如果我们能从BERT当中拿到词和词之间相互“作用”的信息,就能利用一些算法解析出句法结构。具体的做法可以看下面这张图。

比如说你想知道“谭”这个字对 “哥”这个字有多大影响。

1. 我们先把“哥”从原始的句子中mask掉(左图),然后拿到BERT基于上下文生成的“哥”的向量e6,

2. 接下来我们再次去改动句子,这次我们把“谭”和“哥”同时mask掉(右图)。然后再次拿到“哥”对应的向量表达e6’,

3. 通过计算这两个向量之间的差异,比如向量距离:d(e6,e6’),我们能够得到这么一个信息:在缺失了“谭”这个字的上下文中,BERT是如何model“哥”这个字的。我们在文中把这个信息称做“谭”对“哥”的影响。

把上面这个过程在每两个字之间重复一遍,我们可以得到一个描述了这个句子中,字和字之间关系的矩阵。之后我们就可以利用一些经典的基于图的parsing算法从这个矩阵里解析出句法结构。通过把我们生成的树和语言学家们标注好的句法树进行比较,我们就可以量化地知道BERT到底学到了什么程度的句法知识。

那么d(e6,,e'6)有什么直观上的解释吗:

想象一下,如果BERT对“友好的哥谭市民”的理解是“友好/的哥/谭市民”,那么d(e6,e6’) 这个距离不会特别大,因为“谭”对于预测“哥”来说不是特别重要,后面完全可以是张市民,李市民,陈市民。而如果BERT将其理解为“友好的/哥谭/市民”,那么显而易见的,缺失了“谭”会对“哥”的向量产生比较大的影响,导致d(e6,e6’) 的增大。

5. 实验

我们在一些常见的句法分析数据集上进行了大量实验(详见论文)。

实验结果表明,BERT确实从纯文本中通过自监督学习到了一定程度的句法知识。但是我们也注意到,BERT所“理解”的句法结构,似乎和语言学家们定义好的结构有些出入。比如在PTB10上(Penn Treebank中长度小于10的句子),

用我们的无监督方法推导出来的句法树UAS分数只有58.6(得分范围是0-100)。

但考虑到BERT训练过程中并没有接受到任何句法相关的监督信息,并且其训练规模如此之大(训练语料包含330亿个单词,约36万本书)我们不禁产生了一个新的疑问:鉴于BERT在很多任务上的强势表现,有没有可能它学到了某种比语言学家们定义的还要好的句法结构?

为了验证这个想法,我们选择了实体(aspect-level)情感分类这个任务。过往的研究表明,在这个任务中加入依存信息能够有效地提高分类准确率。研究者们使用训练好的解析器(在PTB上UAS得分约为93)来从语料中抽取依存句法树,并作为先验知识将其加入到模型中。

与之相对的,我们把这些解析器提供的句法树替换成用我们的无监督方法推导出来的句法树来进行对比实验。结果如下图:

注:PWCN是模型名称,+Dep表示使用解析器提供的句法树,+Eisner表示用BERT+扰动掩码+Eisner解析算法得到句法树(以下简称BERT树)

我们可以看到,在Laptop这个数据集上,使用BERT树的效果并不比使用更贴近人类定义的句法树(由解析器提供)差。在restaurant这个数据集上,使用BERT树甚至对分类准确率提升还要更大。

这让人不禁遐想,BERT在很多下游任务上效果如此之好,有没有可能就是因为它学到一种可能和人类的定义不太相同的,但是在实际应用上效果非常显著的句法结构?

6. 应用

那么,这个技术除了用来解释BERT之外,还有什么用处呢?

1. 无监督的依存分析,成分分析。对于很多低资源语言来说(比如藏语),根本没有语料让你用于句法分析的训练,这个时候无监督的句法分析就尤其意义重大了。无监督的句法分析目前仅靠词性标注的信息就已经取得了不错的表现,在BERT的加持下,是不是有一些新的机会。比如说用我们的方法抽取出一些依存树来作为distant-supervision。

2. 中文分词。已经有网友尝试把Perturbed Masking应用于无监督的中文分词 (苏剑林, 2020),下图展示了他们的一些分词效果:

3. 对下游任务进行数据增强。我们在前文说到,在下游任务中加入BERT提取到句法信息能够提高模型的表现,那么这以后是不是能够作为一种实用的数据增强的手段?毕竟BERT is all you need)

7. Bibliography

苏剑林. (2020, June 10). 无监督分词和句法分析!原来BERT还可以这样用.

点击ACL 2020,查看更多相关论文。

ACL2020 | 无监督?无监督!你没试过的BERT的全新用法相关推荐

  1. 机器学习-有监督无监督

    前言 根据学习任务的不同可将统计学习分为监督学习.无监督学习.强化学习.半监督学习.主动学习 监督学习 本质是学习输入输出之间映射的统计规律,好比先带人工智障认一遍那些是好瓜那些是坏瓜,让后再给人工智 ...

  2. 康佳lc32es62没声音_康佳LC32ES62有伴音,无图像无字符

    马上登录[中国家电维修联盟论坛]获取更多更全面的信息! 您需要 登录 才可以下载或查看,没有帐号?请使用中文注册 x 本帖最后由 张洪胜 于 2014-12-11 18:22 编辑1 w3 u& ...

  3. 移动号网络运营商无服务器,【分享】亲身经历:解决移动4G无信号无服务的问题...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 由于本人经常在全国各地跑,之前一直用的联通3G套餐(因为无漫游费,而且信号速度比移动3G好).但之后发现在家里联通经常无信号,常常miss重要电话和短信, ...

  4. 如何完美的将对话框设置成无边框无标题栏样式?

    很多同学在绘制UI时喜欢将窗口或者对话框设置成无边框无标题栏样式,然后在客户区里就可以"胡作非为"了,想干什么都行 然而新手们包括笔者以前都遇到的一个问题是:对于对话框来说直接这样 ...

  5. 无粉丝无流量怎么加入快手小黄车?怎么开通小黄车?

    对于快手用户来说,是可以开通快手小黄车的,开通了快手小黄车以后就可以在这里上传商品的,消费者有喜欢的商品的话也是可以去下单的.如果无粉丝无流量怎么加入快手小黄车? 无粉丝无流量怎么加入快手小黄车? 抖 ...

  6. 如何看待华文的《二十岁无资本无未来》?

    如何看待华文的<二十岁无资本无未来>? 贴原文        你学习一般,考上了现在的这所学校,成绩不算好,拿不到奖学金,上课不听讲,上自习不规律,考试靠突击,同学帮一把的话也能每科考到七 ...

  7. 《20岁无资本无未来》

    你学习一般,考上了现在的这所学校,成绩不算好,拿不到奖学金,上课不听讲,上自习不规律,考试靠突击,同学帮一把的话也能每科考到七八十分,但是与优秀总有很大距离. 你家境一般,父母都是普通员工,你在这个城 ...

  8. 信通初试第一:无科研无竞赛一战上岸上海交大819学硕感悟

    笔者来自通信考研小马哥23上交819全程班学员 信通初试第一:无科研无竞赛一战上岸上海交大819学硕感悟 原创2023-04-27 11:04·通信考研小马哥 笔者来自通信考研小马哥23上交819全程 ...

  9. 非硬件故障的已正确授权电脑可连接单位正常WIFI但无提示无internet

    非硬件故障的已正确授权电脑可连接单位正常WIFI但无提示无internet.就是:连接成功WIFI无法访问internet网络. 一.情景: 单位办公网络管制,网卡MAC需要单位授权后才能访问inte ...

最新文章

  1. Linux设置界面或命令行启动
  2. 以赛促学,飞桨助力大学生智能车竞赛升级
  3. 金融新手投标模块布局小Demo
  4. Android 程序打包
  5. leetcode 448. Find All Numbers Disappeared in an Array
  6. SpringMVC源码阅读:过滤器
  7. Java高级工程师必备数据结构算法高效查找算法原理分析与实现
  8. c++构建工具之make使用小结
  9. matlab中的地理数据结构体,matlab中怎么定义结构体啊 !!!
  10. LeetCode MySQL 1581. 进店却未进行过交易的顾客
  11. VGA、DVI、HDMI区别
  12. 隐藏虚拟键盘,解决键盘挡住UITextField问题
  13. JAVA虚拟机垃圾回收机制和JAVA排错三剑客
  14. 计算机操作员高级工试题一,计算机操作员高级工操作题复习资料
  15. 【Matlab】 读取文件各种方法
  16. java实现小程序订阅消息推送(附源码)
  17. 什么是SIT测试,、UAT测试?
  18. 2022最新软件库iApp源码+简约唯美/对接hybbs
  19. SCDN的抗CC攻击和抗DDoS攻击防护是什么?
  20. MDM9607编译出现ERROR: Only one copy of bitbake should be run against a build directory

热门文章

  1. 学校SOLARIS ORACLE很好的电子教材
  2. SetAutoResizeMode
  3. chmod 4755和chmod 755的区别
  4. 三、Spring Boot在org.springframework.boot组下应用程序启动器
  5. 程序员崩溃的40多个瞬间!!!太形象了,你遇到过几个?
  6. CVPR 2017 全部及部分论文解读集锦
  7. TensorFlow object detection api------ssd_mobilenet使用
  8. AI艺术家带雕塑作品参展被海关扣押,只因摄像头眼睛被指涉及间谍行为?
  9. MIT自动驾驶船下水!可乘坐5人,阿姆斯特丹运河航行3小时误差不到0.17米
  10. 腾讯数据科学家手把手教你做用户行为分析(案例:出行选择)