文 | ????????????????

自然语言处理实在是太难啦!中文尤其难!

相比于英文,中文是以词作为语义的基本单位的,因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人,比如“研究生活很充实”,怎么让模型分出“研究|生活”,而不是“研究生”呢?

随着预训练模型的到来,中文模型通常直接用字作为输入。甚至 19 年的一篇 ACL[1] 给出结论:基于“字”的模型要好于基于“词”的模型。但是,中文是以词作为语义的基本单位的呀,忽略这种粗粒度的信息,真的合理吗?

今天这篇发表在 NAACL 2021 的文章就让 BERT 在预训练中学到了字和词的信息,在自然语言理解的多个任务上,相对字级别的模型取得了性能提升,轻松摘得 SOTA。以后做中文任务想要刷分,可以直接拿来换掉自己的 BERT

这篇文章为了让 BERT 学到字和词的信息,解决了三个问题:

  1. 怎么将字和词的信息融合,送入 BERT?

  2. 字和词有重叠,位置编码怎么设计?

  3. 在 MLM 任务上,怎么才能同时将字和词的信息都 mask 掉?

下面就来看看这篇文章的解决办法吧~

论文题目:
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
论文链接:
http://arxiv-download.xixiaoyao.cn/pdf/2104.07204v1.pdf
代码地址
https://github.com/alibaba/AliceMind/tree/main/LatticeBERT

方法

词格输入

为了解决问题 1,本文是将词格(word lattice)输入 BERT。

中文的词格图(lattice graph)是一个有向无环图,包含了句子里字和词的所有信息。以“研究生活很充实”这句话为例,词格如下图所示:

读到这里可能会有人疑惑了:BERT 只能处理序列呀?这样的有向无环图该怎么被 BERT 处理呢?简单!这篇文章直接将词格图中各粒度的信息“拍平”,得到一个线性序列,作为 BERT 的输入。其中的每一项无论是字还是词,我们都称为 token:

词格注意力机制

“拍平”词格的输入,就会造成不可避免的重复和冗余,那么对于位置编码,该怎么适应呢?另外,在“拍平”之后,原先二维的复杂图结构信息就会有所损失,怎样避免图结构的损失呢?为了解决问题 2,这篇文章又设计了新的词格注意力机制。

对于字级别的 BERT,计算 attention map 可以表达为两个字向量的内积:

其中 分别是第 和 个字在第 层的表示。字级别 BERT 中,位置编码是在输入时,直接加到字的表示中的:

然而,很多工作 [2] 表明,这种在输入中混合位置编码的方式比较粗糙。在计算 attention map 时,将位置编码与字的表示解耦,专门设计一个位置编码的函数,会是一个更好的选择:

这里 就是关于 两个字的位置编码的函数。本文也采取了这一类方法。具体地,attention map 可以通过四项相加的方式得到:

第一项是字的表示得到的 attention score,后面三项都是与位置编码相关的,下面我就来一一介绍~

  1. 绝对位置编码

绝对位置编码表示了 token 在句子中的位置。式子里的 表示当前输入 token 的开始位置, 表示结束的位置。这个式子就表示将 token 的起始位置的绝对位置编码拼接,进行 attention 操作。

这一项可以说是对原始 BERT 中的位置编码的复刻,并适应了词格的输入。因为词格输入的每一项长度是不固定的,引入头尾位置也是自然的想法。

然而,绝对位置编码是有缺陷的:在理论上,我们对绝对位置编码的限制只有一点,即不同位置的编码不同。但这样就忽略了很多信息,比如,位置 1 和 2 的距离与位置 5 和 6 的距离应该一样,位置 1 和 3 的距离比位置 4 和 10 的距离要小,等等。在绝对位置编码的设计里,我们只能让 BERT 隐式地“学习”。

  1. 相对位置编码

因此,这篇文章也引入了相对位置编码,来表示 token 之间的相对距离。式子右边每一项都代表两个 token 的起始位置之间的相对距离,例如, 表示两个 token 的起始位置之间的相对距离 的表示。引入了相对位置编码,模型就可以建模更长的文本。

  1. 层叠关系编码

表示两个 token 之间的层叠关系。根据这两个 token 起始相对位置的不同,两个 token 可以分成下列七种关系:

具体来说,这七种关系为:

  1. 自身

  2. 在左边,且无重叠

  3. 在左边,且有重叠

  4. 包含关系

  5. 被包含关系

  6. 在右边,且有重叠

  7. 在右边,且无重叠

将 token 之间的关系分成以上七种,就可以显式地表示词格图中的复杂的二维关系。之前“拍平”词格图时削弱的信息,在这里又找回来了。

预训练任务:整段预测

最后一个问题:原来的 MLM 任务在词格输入的形式上,似乎并不适用。

还是用“研究生活很充实”来举个例子。这句话的词格输入将是这样:

研 究 生 活 研究 研究生 生活 很 充 实 充实

词格的输入带来了冗余,在 MLM 任务中,我们随机 mask 掉一些 token,是希望通过其上下文预测这些 token。但是在词格输入里,比如我们随机 mask 掉了“研究”,但是模型会直接通过前面的“研”“究”和后面的“研究生”来预测这个 mask token,这样走捷径,最终一定得不到好结果。

于是,这篇文章设计了整段预测任务(masked segment prediction):在词格图中,一句话将被切成多个段(segment),每个段之间不会有重叠的 token,同时也要使段的长度最小。“研究生活很充实”这句话就可以切成下图的三段:

在整段预测任务中,直接 mask 掉一段里的所有 token,并预测这些 token。这样就可以避免输入的冗余让模型“作弊”。

实验

这篇文章使用句子里所有可能的词来构建词格图,这样尽管会带来错误的分词,但是让模型自己学习降噪,还能提升模型的鲁棒性。

这篇文章在 11 个任务上进行了实验,11 个任务包括:

  • 6 个文本分类任务:长文本分类、短文本分类、关键词提取、指代消解、自然语言推断和文本匹配;

  • 2 个序列标注任务:分词和命名实体识别;

  • 3 个问答任务:机器阅读理解(答案段选取)、选择题、完形填空。

总体性能如下图所示:

其中,RoBERTa 是哈工大的 roberta-base-wwm-ext;NEZHA 是最好的字级别中文预训练模型,来自华为诺亚方舟研究院;AMBERT 是曾经多粒度中文预训练模型的 SOTA,是字节跳动李航组的工作;BERT-word 是使用词作为输入的 BERT;LBERT 是本文的方法;BERT-our 是本文使用相同语料重新预训练的 BERT。

可以发现,LBERT 优于所有字级别的预训练模型,并在 7/11 个任务上取得 SOTA。

LBERT 在哪里强于字级别的 BERT 呢?作者对预测结果进行分析,得到如下结论:

  • 在短文本分类任务上,LBERT 在更短的样本上有更大的性能提升,作者认为,词格输入的冗余信息为短文本提供了更丰富的语义信息;

  • 在关键词提取任务上,LBERT 在词级别的关键词上性能提升更高,作者认为 LBERT 从词格输入中,理解了关键词的语义;

  • 在命名实体识别任务上,LBERT 在重叠实体的样本上减少了 25% 的错误,这是词格输入带来的天然优势;

LBERT 是怎么运用多粒度的信息呢?作者对注意力分数进行了可视化,还用“研究生活很充实”这句话为例:

图中的三行分别为:

  • 在预训练结束后,模型会关注句子的各个部分;

  • 在命名实体识别任务上 fine-tune 之后,模型更关注“研究”“生活”“很”“充实”,这与正确的分词结果是一致的,对命名实体识别任务也是非常关键;错误分词的“研究生”就没有得到注意力;

  • 在文本分类任务上 fine-tune 之后,模型更关注“研究生”“生活”“充实”,尽管这些词不能在一套分词中同时存在,但是对分类都是有用的。

总结

这篇文章解决了三个问题:

  1. 怎么输入?使用词格(lattice)作为 BERT 的输入;

  2. 位置编码?设计了词格注意力机制(lattice position attention),使模型真正习得词格整张图的信息;

  3. MLM?设计了整段掩码预测任务(masked segment prediction),避免模型从词格的多粒度输入中使用捷径。

这样一来,就能在 BERT 中融合字和词信息,也在多个任务上拿到 SOTA。

另外,这种词格的输入看上去也是优点多多:对于短文本的任务,词格输入可以作为一种信息的增强;对于和词相关的任务,输入的词能让模型更好的理解语义;对于抽取的任务,词格能帮助定位抽取的边界。

这里还延伸出一个问题:英文是不是也可以利用多粒度的信息呢?中文的预训练模型可以使用字和词的信息,相似地,英文就可以使用 subword 和 word 信息,这样是不是有效呢?

萌屋作者:????????????????

在北大读研,目前做信息抽取,对低资源、图网络都非常感兴趣。希望大家在卖萌屋玩得开心 ヾ(=・ω・=)o

作品推荐

  1. 老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!

  2. 谷歌:CNN击败Transformer,有望成为预训练界新霸主!LeCun却沉默了...

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1] Yuxian Meng, et al., "Is Word Segmentation Necessary for Deep Learning of Chinese Representations?", ACL 2019, http://arxiv-download.xixiaoyao.cn/pdf/1905.05526.pdf

[2] Guolin Ke, et al., "Rethinking Positional Encoding in Language Pre-training", ICLR 2021, http://arxiv-download.xixiaoyao.cn/pdf/2006.15595.pdf

中文BERT上分新技巧,多粒度信息来帮忙相关推荐

  1. 【NLP】中文BERT上分新技巧,多粒度信息来帮忙

    文 | ???????????????? 自然语言处理实在是太难啦!中文尤其难! 相比于英文,中文是以词作为语义的基本单位的,因此传统的中文 NLP 都需要先进行分词.分词这步就劝退了很多人,比如&q ...

  2. 王者荣耀连接不上服务器最新赛季排名,王者荣耀新赛季初不好上分 排位上分小技巧...

    王者荣耀新赛季初不好上分?王者荣耀新赛季初期排位上分是件很困难的事情,那有没有在赛季初上分的小技巧呢?当然有的,想要赛季初就开始排位的小伙伴看过来吧. 都说赛季初排位难,到底难在哪里?大概可以分为两个 ...

  3. 文本分类上分微调技巧实战

    目录 引言 How to Fine-Tune BERT for Text Classification 论文 微调策略 ITPT:继续预训练 学术论文分类挑战赛微调 huggingface工具介绍 b ...

  4. Knowledge Review:超越知识蒸馏,Student上分新玩法!

    文 | 陀飞轮@知乎 今天介绍一篇我司的文章Distilling Knowledge via Knowledge Review(缩写为KR),提出知识蒸馏的新解法. 之前在知乎回答过一个知识蒸馏的问题 ...

  5. 自训练:超越预训练,展现强大互补特性的上分新范式!

    文 | 香侬科技 编 | 兔子酱 背景 预训练(Pre-training)模型自BERT问世以来就一发不可收拾,目前已经在自然语言理解和生成两个方面取得了突破性成就.但是,作为它的一个"兄弟 ...

  6. 机器人出卢安娜飓风_EZ携带卢安娜飓风可触发三次魔切!致命节奏EZ成上分新玩法...

    前两天,GEN.G对战KT时,选手Aiming将致命节奏EZ带入职业赛场,打出不俗的效果,这使得韩服玩家争相效仿,玩家们体验致命节奏EZ后,发现EZ携带致命节奏符文要比征服者符文的收益更高,大大提高E ...

  7. 【直播】闫强:文本分类上分利器 -- Bert微调技巧大全

    文本分类上分利器 – Bert微调技巧大全 直播信息 主讲人:ChallengeHub成员,中国人民大学硕士. 直播时间:2021年07月25日 15:00~16:00 直播内容: 经典论文介绍与解读 ...

  8. 【论文解读】文本分类上分利器:Bert微调trick大全

    论文标题:How to Fine-Tune BERT for Text Classification? 中文标题:如何微调 BERT 进行文本分类? 论文作者:复旦大学邱锡鹏老师课题组 实验代码:ht ...

  9. 文本分类上分利器: Bert微调trick大全

    点击下面卡片,关注我呀,每天给你送来AI技术干货! 来自:ChallengeHub 论文标题:How to Fine-Tune BERT for Text Classification? 中文 中文标 ...

最新文章

  1. 技术领导力实战笔记一
  2. linux 跟踪链接 超时,Linux:跟踪netstat -s“连接尝试失败”的来源
  3. Windows Phone开发(32):路径之PathGeometry 转:http://blog.csdn.net/tcjiaan/article/details/7469512...
  4. 用servlet校验密码2
  5. bootstrap4 左侧导航栏 优秀 大气_制作动态效果的后台导航栏——左侧导航
  6. 【经典回放】多种语言系列数据结构算法:队列(C版)
  7. 博士仅用2周投中了篇论文,戏耍157家期刊,被Science报道!
  8. python 抽象类、抽象方法、接口、依赖注入、SOLIP
  9. 常用算法之----快速排序
  10. 人工智能+眼科疾病辅助诊断(相关信息搜集)
  11. uva 10825 - Anagram and Multiplication(暴力)
  12. IOS Video Tool Box后台解码失败
  13. MATLAB 高等数学中的应用
  14. 关闭网页html代码,网页中设置禁止查看源代码(保护源代码)
  15. javascript编写的抽奖小程序
  16. 软件工程第三章(第一部分)
  17. 简单介绍会计师事务所
  18. 一个变量命名神器:支持中文转变量名
  19. proteus——555 PWM 发生器
  20. eclipse的32位和64位版本(亲测有效)

热门文章

  1. 实施vertex compression所遇到的各种问题和解决办法
  2. 动画讲解C语言的指针,从未如此简单
  3. 项目实战,平均负载过高,最后发现却是这个搞鬼
  4. 你确定你会使用git commit?
  5. 浪漫情人节|C语言画心型
  6. 程序的内存分配模式(堆栈以及静态存储区,文字常量区,代码区)
  7. 转盘脚本编辑器学习1
  8. java requestparams_java – 如何验证@RequestParams不为空?
  9. jstl 获取 javascript 定义的变量_前端开发大牛完整总结出了JavaScript 难点 +最新web前端开发教程...
  10. java access jdbc_Java连接Access数据库