【ACL2020论文尝鲜】何时采用BERT更加有效？

来自：AI自然语言处理与知识图谱

何时采用BERT更加有效？

导语：

有些研究表明，BERT并非全能，并非处处完胜，那么BERT何时有效？目前的预训练模型昂贵复杂，让人无福享受，本文是 ACL 2020 一篇词向量的工作，该文探究了影响词向量的两大因素：训练数据的规模和文本语言的特性，并在三种类型的词向量上面分析：BERT词向量、Glove词向量和随机词向量。这篇论文是一篇预训练模型的有效分析，是一个不错的想法，希望更多类似的工作可以呈现，通过分析设计更加简单有效的预训练模型。

背景

该篇论文目前在arxiv上面，已经被ACL2020接受。

近两年来，文本预训练模型已经在太多的任务上面大放异彩，论文研究层出不穷，并且在工业界也已经慢慢部署开来，解决业界实际难题。这些预训练模型始于18年的ELMO、BERT，历经后续的一系列变种(如下图)，以及最新的1700亿参数量的GPT-3，像ELMO、BERT有微调和词向量两种使用方式，今天我们只关心其作为词向量的研究工作，这些词向量带有丰富的上下文信息，可以看做Rich Contextual Embedding。

预训练模型一直都是大家热议的话题，最直接的原因当然是因为效果显著，但是计算力资源(eg Memory，Time, Money)也是一方面，特别是最新的GPT-3，1700亿的参数量，明知模型有个微小的bug,却都不能retrain（如下图），正是因为资源消耗非一般模型可比，更非大多数人可用，我们才更应该关心何时何处采用预训练词向量才能够取得理想化的效果？何时可以增加重要的信息？何时可以使用更有效的表示而不会显著降低性能？该篇论文的研究问题就是这。

三种词向量

我们先对实验中用到的三种词向量加以说明。

Pretrained contextual embeddings：即 BERT Embedding，以 BERT、XLNet为代表，对于给定的句子，这些模型将每个标记编码为一个特征向量，该特征向量来自句子中标记 上下文的信息。

Pretrained non-contextual embeddings：以 word2vec、GloVe、fastText为代表，这部分多说一点，BERT未出世之前，大多数人可能都对这些模型有所了解。拿 word2vec 来说，因为有上下文词(固定窗口)参与学习，一般都说学习到上下文信息，但是在这篇论文中将其划分为无上下文信息的模型，该文认为将单词编码为语义信息向量，类似的单词就有相似的向量表示，而不是上下文信息，BERT 中所涉及的上下文信息远远要大于上下文词所学到的“上下文信息”，是编码整句文本的信息。

Random embeddings：该文还考虑了将没有预训练的随机词向量作为一个简单有效的 baseline, 词向量随机的方法采用循环随机矩阵(circulant random matrices)。
实验中采用的 Contextual embeddings 为768维的 BERT Base，Non-contextual embeddings 是300维公开可获取的GloVe词向量，Random embeddings 采用800维的随机向量，三种词向量均不微调(微调就不知道是模型的作用还是词向量本身的作用)。
实验中包含三个任务，命名实体识别(NER)、情感分析(sentiment analysis)、以及General Language Understanding Evaluation (GLUE)下多个任务。

影响因素一：训练数据规模

任务的训练数据规模是至关重要的因素之一，因此该文首先探索了训练数据的规模对三种词向量的影响，具体的实验结果如下图。

左右两个子图分别是NER和情感分析任务，不同颜色的线条代表不同的词向量。从图中我们能够发现两个点：

训练数据最小时，BERT 词向量在两个任务上面都是领先的地位，明显优于 GloVe和 Random词向量，说明 BERT 在小数据上也能有很好的效果。
伴随着训练数据的不断扩增，BERT 词向量也是一直处于领先的位置，但是 GloVe 和 Random 两者的增长趋势很快，最后基本能达到与 BERT 强有力的竞争点。

结论：在许多任务中，当提供充足的数据，GloVe这些词向量可匹配BERT。

影响因素二：语言的特性

为了更好地理解 BERT 词向量在性能上的巨大提升，该文确定了NLP任务的三个语言特性，看这三个语言特性的影响大小，有助于解释在什么时候会受益？

这三个语言特性陈列如下：

Complexity of sentence structure: 句子中不同单词的相互依赖程度。
Ambiguity in word usage: 训练过程中，单词的歧义性。
Prevalence of unseen words：训练过程中，未登录词的可能性。

我们先来看下这部分的实验结果，如下图是 BERT 词向量和 Random 词向量在两个任务上面的实验结果，表中的结果代表的是 BERT 与 Random 的差值，正数当然是BERT优于Random，负数相反，Abs 和 Rel两项结果，我们暂不关心Rel，只看Abs。

下图中共有21个Abs值，其中正值有19个，表明 BERT 代表的 Contextual embeddings 在19项上面都表现良好，说明， Contextual embeddings 在这三个特性上面有重要的信息增加。

下图是 BERT 词向量和 GloVe 词向量 类似上面的实验结果，仔细观察会发现结果与上面有不同，在 Complexity 和 Ambiguity 这两个共14项结果，有11项为正值，表明 Contextual embeddings 在这两个上面还是表现不错的，但是在 Unseen 特性上面，7项里面仅有2个表现的好。

结论：以 BERT 为代表的 Contextual embeddings 在解决一些文本结构复杂度高和单词歧义性方面有显著的效果，但是在未登录词方面 GloVe 代表的Non-Contextual embeddings 有不错的效果。

结束语

综合来说，在具有大量训练数据和简单语言的任务中，考虑算力和设备等，GloVe 代表的 Non-Contextual embeddings 是个不错的选择。但是对于文本复杂度高和单词语义歧义比较大的任务，BERT代表的 Contextual embeddings 却有明显的优势。

目前学术界或者工业界的预训练模型都越来越复杂，越来越昂贵，让人无福享受，这篇论文是一篇预训练模型的有效分析，是一个不错的想法，希望更多类似的工作可以呈现，通过分析设计更加简单有效的预训练模型。

参考资料

Arora S, May A, Zhang J, et al. Contextual Embeddings: When Are They Worth It?[J]. arXiv preprint arXiv:2005.09117, 2020.
https://github.com/thunlp/PLMpapers

【ACL2020论文尝鲜】何时采用BERT更加有效？相关推荐

采用HTML5搭建的多个网站尝鲜试用
采用HTML5搭建的多个网站尝鲜试用 2010-04-06 16:04:57 作者:不详来源:站长之家浏览次数:371 网友评论 0 条 HTML5作为HTML标准的下一个版本,包含了很多新特性, ...
独家 | 采用BERT的无监督NER（附代码）
作者:Ajit Rajasekharan 翻译:陈之炎校对:王雨桐本文约8700字,建议阅读10+分钟. 本文介绍了一种无监督命名实体识别(NER)的方法. 图1. 展示了未微调的BERT(ber ...
特斯拉自动驾驶新能力：识别红绿灯停车标识；尝鲜车主：实用好用
白交发自凹非寺量子位报道 | 公众号 QbitAI 特斯拉,现在可以买到的最有智能化体验的汽车. 撇开安全话题,自动驾驶的能力和功能,一直走在行业最前沿. 这不,城区道路驾驶里,连交通信号灯 ...
前端每周清单第 49 期：Webpack 4 Beta 尝鲜，React Windowing 与 setState 分析
前端每周清单专注前端领域内容,以对外文资料的搜集为主,帮助开发者了解一周前端热点:分为新闻热点.开发教程.工程实践.深度阅读.开源项目.巅峰人生等栏目.欢迎关注[前端之巅]微信公众号(ID: fron ...
vue 时间插件_Vue3 插件开发详解尝鲜版「值得收藏」
作者:lishuai 转发链接:https://segmentfault.com/a/1190000022757326 前言 vue3.0-beta 版本已经发布了一段时间了,正式版本据说在年中发布( ...
小米9android q测试版,基于Android Q的MIUI来了小米9尝鲜
01基于Android Q的MIUI来了中关村在线消息:谷歌在今年五月份发布了最新的Android Q系统,虽然很多国产手机还没有升级到Android P,但是还是有不少厂家开始对旗下的手机升级到最 ...
三星旗舰Galaxy Note 10系列发布 5G版本国行尝鲜价8299元
北京时间8月8日凌晨四点,三星电子在美国正式发布全新的旗舰机智能手机Galaxy Note 10系列.三星Galaxy Note 10包括6.3英寸标准版以及6.8英寸plus版两种版本,其中,三星G ...
一起读论文 | 文本分类任务的BERT微调方法论
导读:今天为大家解读一篇复旦大学邱锡鹏老师课题组的研究论文<How to Fine-Tune BERT for Text Classification?>.这篇论文的主要目的在于在文本分类 ...
miui9支持android,基于Android Q的MIUI来了小米9尝鲜
中关村在线消息:谷歌在今年五月份发布了最新的Android Q系统,虽然很多国产手机还没有升级到Android P,但是还是有不少厂家开始对旗下的手机升级到最新的Android Q系统,根据小米最新的 ...
Taro 小程序开发大型实战（六）：尝鲜微信小程序云（上篇）
欢迎继续阅读<Taro 小程序开发大型实战>系列,前情回顾: 熟悉的 React,熟悉的 Hooks[1]:我们用 React 和 Hooks 实现了一个非常简单的添加帖子的原型多页面跳 ...

【ACL2020论文尝鲜】何时采用BERT更加有效？

【ACL2020论文尝鲜】何时采用BERT更加有效？相关推荐

最新文章

热门文章