预训练模型MT-BERT的探索和应用

提纲
预训练背景和现状

MT-BERT 核心能力建设

MT-BERT 业务落地

MT-BERT 总结

预训练背景和现状
NLP预训练发展

预训练进化方向
预训练模型多元化发展

预训练进化方向(续)

主流大规模模型


应用案例:Google搜索使用BERT


工业界动态
业界主流公司的搜索及NLP场景都陆续使用BERT或类似的预训练模型

MT-BERT
MT-BERT 定位

MT-BERT是针对搜索场景打造的BERT模型,为语义理解任务提供平台级解决方案

MT-BERT 定位(续

MT-BERT 训练加速
• 训练框架优化,TF分布式方案升级为Horovod方案,多机多卡稳定加速比

• 单精度和半精度混合训练,减少显存占用,加大Batch Size

• 优化器Adam升级为LAMB,加大Batch Size下减少泛化误差

• DeepSpeed,支持更大模型、更快训练

• Checkpointing、XLA、Kernel优化

多机多卡训练速度提升2.7倍

MT-BERT 更好的预训练规划

MT-BERT 更好的通用模型
训练任务优化:Masking策略优化,融入知识


MT-BERT预训练中加入外部领域知识

  1. Entity-aware Masking

  2. Knowledge Graph Fusion


• 训练任务 SOP升级SRP

• 输入层 中文混合粒度

• 隐层的优化 增加层数 相对位置编码

• 训练技巧 去掉Dropout 更多的数据

图解(MT-BERT在CLUE Leaderboard上排名第一)

MT-BERT 领域适配
Domain/Task-aware Continue Pretraining

MT-BERT 检索任务适应,双塔模型
双塔得到的表征通过Pooling的方式,信息的损失很大。

通过引入kmeans对这些表征聚类,再后交互,能够很大程度上减少信息损失。


在多个数据集合Trivia QA, SQuAD, Natural Questions 和 MS MARCO上 取得了非常显著的效果提升。


MT-BERT 检索任务适应,交互模型

MT-BERT 检索任务适应,关键词分析
我们发现 在检索任务中,主题匹配的 候选优于一般匹配

我们定义 了三种相关性等 级:主题匹配、一般匹配和不匹配



图解(实验结果)

MT-BERT 实体链指任务适应

MT-BERT 模型轻量化


图解(不同量级量级的实验结果)

MT-BERT 多模态预训练



MT-BERT应用
MT-BERT 在深度查询理解中的应用


MT-BERT 在搜索场景中的应用

MT-BERT 在推荐理由场景中的应用
推荐理由: 基于大众点评UGC为每个POI生产的自然语言可解释性理由

场景化分类: 基于MT-BERT进行单句分类微调,提供符合不同场景需求的推荐理由服务。

MT-BERT 在情感分析中的应用
句子级情感分析

非常好吃, 环境很好 服务很周到 饮料很好喝 ——> 正向

临近九州东路路口,在路西,斜对过是加油站。 ——> 中性

菜的口味很一般般啦,房间的服务也跟不太上 ——> 负向

细粒度情感分析

这家店非常好找,交通也很方便,门口可以停车, 交通方便 ——> 正向

车位还挺多,环境装修典雅,就是座位比较挤,服

务员比较忙,态度感觉一般吧,价格偏高,好在东 服务态度 ——> 中性

西不错,性价比一般吧。饭菜非常好吃,尤其是 价格水平 ——> 负向

鱼,味道很鲜美,分量还挺大,吃撑了~

Aspect-aware LSTM(AA-LSTM)

基于MT-BERT升级细粒度情感分析模型

MT-BERT 一站式平台
平台特性

• 平台预置多版本MT-BERT模型(Tiny、Small、Medium、Base、Large)及Google BERT、RoBERTa等开源预训练模型

• 支持单句分类、句间关系、序列标注任务的分布式Finetune训练和预测

• BERT as Feature 排序模型训练、搜索实验平台深度融合

• 支持模型裁剪和知识蒸馏,定制上线小模型

总结
MT-BERT 本地生活服务预训练模型

预训练模型MT-BERT的探索和应用相关推荐

  1. 预训练模型:BERT

    0. 引言 BERT全称为 Bidirectional Encoder Representation from Transformers(来自 Transformers 的双向编码器表示),是谷歌20 ...

  2. 一个API调用27个NLP预训练模型:BERT、GPT-2全囊括,像导入NumPy一样容易

    鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 只需一个API,就能调用BERT.XLM等多种语言模型,逆天的GPT-2也一样轻松到碗里来,这样的模型库你是否期待? 现在,真的有人完成了 ...

  3. 预训练模型:BERT深度解析《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

    目录 1. 背景 2. 什么是 Bert 及原理? 3. 论文内容<BERT: Pre-training of Deep Bidirectional Transformers for Langu ...

  4. 语音识别预训练模型Hidden-Unit BERT (HuBERT)

    1.简介 本文根据2021年<HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hid ...

  5. 预训练模型-从BERT原理到BERT调包和微调

    一.BERT原理 BERT取名来自 Bidirectional Encoder Representations from Transformers.架构为:预训练 + fine-tuning(对于特定 ...

  6. 金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0

    出品 | AI科技大本营 头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...

  7. 一大批中文(BERT等)预训练模型等你认领!

    作者丨Zhe Zhao 机构丨RUC DBIIR & Tencent Research 研究方向丨自然语言处理 项目简介 预训练模型已经成为了 NLP 领域最重要的资源之一.当我们拿到一个 N ...

  8. Whole Word Masking (wwm) BERT PaddlePaddle常用预训练模型加载

    Whole Word Masking (wwm),暂翻译为全词Mask或整词Mask,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略. 简单来说,原 ...

  9. Pytorch——BERT 预训练模型及文本分类(情感分类)

    BERT 预训练模型及文本分类 介绍 如果你关注自然语言处理技术的发展,那你一定听说过 BERT,它的诞生对自然语言处理领域具有着里程碑式的意义.本次试验将介绍 BERT 的模型结构,以及将其应用于文 ...

  10. 乘风破浪的PTM:两年来预训练模型的技术进展

    作者 | 张俊林 来源 | 深度学习前沿笔记专栏 Bert模型自18年10月推出,到目前为止快两年了.它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PT ...

最新文章

  1. html弹性重叠,关于html5弹性布局(2)
  2. swing中怎么在原来图片的基础上切换第二张图片_狂戳痛点!毕业论文图片和公式排版!...
  3. php导出excel失败原因,PHPExcel导出Excel文件报找不到该文件错误
  4. #ifdef __cplusplus extern “C”的作用详解
  5. 删除对象键值_JavaScript的解构技巧:排除对象属性、避免命名冲突、交换……...
  6. 打印出所有的 水仙花数 ,所谓 水仙花数 是指一个三位数,其各位数字立方和等于该数本身。例如:153是一个 水仙花数 ,因为153=1的三次方+5的三次方+3的三次方。...
  7. 判断当前用户有无Administrator的权限
  8. 基于DEMATEL-ISM法的民航飞行员综合安全能力结构模型研究
  9. 使用深度森林(Deep Forest)进行分类-Python
  10. 电脑计算机硬盘坏了如何修理,笔记本电脑硬盘坏了怎么修复怎么办
  11. python 局域网传文件_Python+pyftpdlib实现局域网文件互传代码示例
  12. 自定义向PE启动映像WIM中添加驱动方法
  13. QtAndroid具体解释(6):集成信鸽推送
  14. MFC实现程序开机自动运行
  15. ccf 201903-5 317号子任务【60分】
  16. mdx词典包_欧路词典—使用体验
  17. 初学者怎么记‘A‘,‘a‘,空格的ascii码?
  18. vue3 ref 和reactive的区别
  19. ROS serial 读取IMU数据, 打包发布topic
  20. 在那山的这边海的那边有一群程序员

热门文章

  1. 安装永中office 2009个人版 点快捷方式无法运行
  2. 计算机软件维护方法,计算机软件维护策略
  3. dialogArguments的用法
  4. Photo Album: MSN中国版头像
  5. php163邮箱正则,正则表达式匹配邮箱账号
  6. ue4渲染速度太慢_UE4实时渲染,不用合成。第一部完全UE4渲染动画片是这样炼成的~...
  7. Flash遮罩动画之画轴
  8. Ubuntu操作-01 安装NVIDIA显卡驱动
  9. JavaScript 开发者的 5 款必备工具
  10. 历史上的今天:乔布斯辞去苹果CEO一职;Windows 95 发布