AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

1. 之前的BERT还存在什么问题?

归纳:即BERT中的token采取的是细粒度的,这种细粒度无法解决英语中的“多词表达形式(如 ice creaming; New York,这些多词表达分开的意思和真正的意思相去甚远)”

2. 作者的解决方案

在本文中,我们提出了一个多粒度的BERT模型(AMBERT),它同时使用了细粒度和粗粒度标记。对于英语,AMBERT通过使用两个编码器同时构造输入文本中的单词和短语的表示来扩展BERT。确切地说,AMBERT首先在单词和短语级别上进行标记化。然后,它将单词和短语的嵌入作为两个编码器的输入。它在两个编码器中使用相同的参数。最后,它在每个位置上分别获得该词的上下文表示和该短语的上下文表示。注意,由于参数共享,AMBERT中的参数数目与BERT中的参数数目相当。AMBERT可以在单词级和短语级表示输入文本,以利用这两种标记方法的优点,并在多个粒度上为输入文本创建更丰富的表示

3 作者贡献(创新点)

  1. 多粒度预训练语言模型的研究
  2. 提出一种新的被称为AMBERT的预训练语言模型作为BERT的扩展,它利用了多粒度的token和共享的参数
  3. AMBERT在英文和中文基准数据集GLUE, SQuAD, RACE,和CLUE上的实证验证。

具体可参考专知链接和论文:https://www.zhuanzhi.ai/vip/bc6b030cfb7f96c81f1eb5440fcb7f94
论文地址

AMBERT!超越BERT!多粒度token预训练语言模型相关推荐

  1. 自然语言处理NLP,如何使用AMBERT算法建立多粒度token预训练语言模型

    字节跳动 Xinsong Zhang.李航两位研究者在细粒度和粗粒度标记化的基础上,提出了一种新的预训练语言模型,他们称之为 AMBERT(一种多粒度 BERT).在构成上,AMBERT 具有两个编码 ...

  2. 【深度学习】预训练语言模型-BERT

    1.BERT简介         BERT是一种预训练语言模型(pre-trained language model, PLM),其全称是Bidirectional Encoder Represent ...

  3. 微软提出AdaLM,用于开发小型、快速且有效的领域预训练语言模型

    ©作者 | 常馨 学校 | 北京邮电大学硕士生 研究方向 | NLP.信息检索 论文标题: Adapt-and-Distill: Developing Small, Fast and Effectiv ...

  4. retinanet50预训练权重_论文导读|基于注意力机制对齐增强预训练语言模型

    李彦增 这篇文章通过提出了一种注意力机制对齐的方法,为预训练语言模型在 fine-tuning阶段引入了多源分词信息外部知识,从而提升了预训练语言模型在各个子任务上的效果.本文收录于 2020 年 A ...

  5. 《预训练周刊》第7期:傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG

    No.07 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 ‍‍‍超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第7期 ...

  6. 预训练语言模型真的是世界模型?

    文 | 子龙 自GPT.BERT问世以来,预训练语言模型在NLP领域大放异彩,刷新了无数榜单,成为当前学界业界的心头爱,其主体结构--Transformer--也在逐步的运用于其他领域的任务中,常见的 ...

  7. CPT模型:一种中文兼顾NLU和NLG的非平衡预训练语言模型

    写在前面 大家好,我是刘聪NLP. 前几天在做生成任务的时候,在Github里搜索「中文BRAT模型」,一下搜到了复旦大学邱锡鹏老师组的「CPT」(Chinese Pre-trained Unbala ...

  8. COLING 2022 | CogBERT:脑认知指导的预训练语言模型

    ©作者 | 陈薄文 单位 | 哈尔滨工业大学 来源 | 哈工大SCIR 论文标题: CogBERT:Cognition-Guided Pre-trained Language Model 论文作者: ...

  9. 论文导读 | 基于注意力机制对齐增强预训练语言模型

    这篇文章通过提出了一种注意力机制对齐的方法,为预训练语言模型在 fine-tuning阶段引入了多源分词信息外部知识,从而提升了预训练语言模型在各个子任务上的效果.本文收录于 2020 年 ACL. ...

最新文章

  1. leetcode71
  2. 音视频技术开发周刊 | 154
  3. 从Xamarin.Essentials谈Xamarin库的封装
  4. 锂电池接线方法图_锂电池制浆工艺(2)——制浆设备种类及特征
  5. CUDA——安装Cython包
  6. java.lang.NoSuchMethodError: antlr.collections.AST.getLine()I错误时的原因及解决办法
  7. fork函数原型与用法
  8. Electron 使用Widevine CDM插件
  9. 联想笔记本更换硬盘/改Win 7系统安装过程中报0x000000A5蓝屏
  10. 一键服务端是什么意思_音视频混流是什么意思?混流的优势和劣势
  11. android逆向学习路线
  12. Pytorch使用autograd.Function自定义拓展神经网络
  13. php后端aes加密前端解密
  14. 袁萌浅谈C919大飞机(二)
  15. 大学计算机实验六文件管理与磁盘恢复,虚拟实验:文件管理与磁盘恢复.pdf
  16. soul从入门到进阶01——soul网关初体验
  17. 不得了了!刚刚腾讯官宣 Python 开发人才这样选
  18. 快速求得 a和 b 的最大公约数
  19. 实战▍利用卷积神经网络(VGG19)实现火灾分类(附tensorflow代码及训练集)
  20. wps如何使用ppt美化大师_IT世界网

热门文章

  1. 数据库的四个范式之间的区别
  2. cmd查看所有数据库 db2_民生银行数据库自动化部署的探索与实践
  3. mysql utf-8_完美解决mysql下utf-8的乱码问题
  4. 一步一步写算法(之 A*算法)
  5. 天津计算机本科学校有哪些专业吗,天津哪些大学有人工智能专业
  6. c 匹配mysql密码,MySQL设置密码的三种方法
  7. b g opencv读入的图片 r,OpenCV 读取摄像头并显示图像的R、G、B三个通道的直方图...
  8. python新手如何找工作最有效_Python好学吗?要学多久?
  9. python交互模式中换行_在Python日志模式中禁止换行
  10. ios kvo 要引入_iOS KVO 实现原理 和 自己实现KVO