AI 科技评论报道

编辑 | 陈大鑫

近日,澜舟科技-创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型—孟子轻量型模型,超越腾讯、搜狗等公司,在中文语言理解评测CLUE榜单上登顶第一,刷新业界记录。作为中文语言理解领域最具权威性的测评基准之一,CLUE涵盖文本相似度、分类、自然语言推理、阅读理解等共10项语义分析和理解类子任务。该榜单竞争激烈,吸引了腾讯、搜狗、华为、阿里达摩院等竞争对手的激烈角逐。

澜舟科技是创新工场孵化的一家认知智能公司。公司创始人周明博士是创新工场首席科学家。他是世界顶级的AI科学家,自然语言处理领域的代表性人物。澜舟公司针对商业场景的数字化转型,基于大数据、知识图谱和行业模型,提供新一代的信息检索、知识推理和商业洞见技术和相关产品。

以下为孟子轻量型模型 在CLUE总榜、分类榜和阅读理解榜单上取得的最新成绩:

图一:CLUE总榜、分类榜和阅读理解榜单上的最新成绩

1 孟子预训练模型

孟子预训练模型是基于澜舟团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于Transformer架构,仅包含十亿参数量,基于数百G级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。

“小模型,大智慧”。基于轻量级、高效训练的研究路线,致力于构建十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。孟子预训练模型性能比肩甚至超越千亿大模型,在包含文本分类、阅读理解等各类任务上表现出色。相对已有的中文语言模型,孟子模型实现了多项突破性进展:

  1. 坚持“小而精”的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。

  2. 使用知识图谱增强模型,让 AI 真正获得知识。孟子模型具备顶尖的语言理解能力,在权威CLUE中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。总排行榜分数突破84分,逼近人类基准分数(85.61)。

  3. 灵活的领域和场景适应能力,方便快速定制和应用。基于T5-style的端到端生成的训练范式,同步适配BERT-style的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。

2 轻量化模型研究

在轻量化模型算法研究方面,基于自研的基于语言学知识、知识图谱和领域数据增强等技术,从模型架构(包括基础层Embedding表示和交互层Attention机制)到预训练策略进行了全方位改进。具体而言,

  1. 模型结构方面,将语义角色、词性标注等语言学特征融合到Embedding表示中,基于句法约束引入注意力机制中,从而提升模型对语言学知识的建模能力。

  2. 训练策略上,引入基于实体知识和Discourse的Mask机制,强化模型对语言成分和语篇关系的表征。

  3. 为进一步提高训练效率,使用了大模型蒸馏和初始化小模型策略。

  4. 为更好地将孟子模型适应垂直领域如金融、营销,使用了领域数据继续训练并构造相应的提示模版(Prompt),取得了明显的性能提升。

图2:孟子轻量化模型算法策略

基于以上算法策略,实现从语料中高效学习涵盖词级、句子级和语篇级知识,大幅提升语言模型提炼语言结构和语义信息能力,以及良好的领域迁移能力,适应广泛的产品应用场景。

Finetune的进展

如何将预训练模型用于各项任务同样是一项重要挑战,澜舟团队从数据增强、知识蒸馏、迁移训练、训练优化等方面展开了一些探索,进一步提升语言模型的性能:

  1. 数据增强:使用领域相关数据;

  2. 知识蒸馏:基于Teacher-Student自蒸馏提升训练效率;

  3. 迁移训练:结合课程学习的思想,由易到难训练下游模型;

  4. 训练优化:使用多种训练目标,多角度提升模型能力;

垂直化领域适应

基于领域适应技术,孟子模型已深度垂直化赋能相应行业。典型的例子为适用于金融领域的孟子模型,领域适应策略主要包含两大方面:

  1. 通过大规模的泛金融领域语料,将通用孟子模型迁移到金融领域。金融版孟子模型已经应用于多个金融行业的合作企业,在金融知识图谱搭建、脱水研报、公告抽取等多个任务上获得了出色的表现。

  2. 通过大规模的营销领域语料,将孟子模型迁移到数字营销领域,完成了营销文案生成、新闻摘要等多项任务,将用于行业头部的数字营销公司和多个世界五百强企业的合作之中。

3 轻量化孟子模型的应用及展望

应用

孟子模型已在多个领域成功落地实践,衍生出多项行业领先的产品,涵盖文本生成、行业搜索、机器翻译等诸多领域。

未来展望

轻量级模型凭借着模型参数较少、快速推断的特点,易于线上部署和推广到移动设备中,具有广泛的研究和应用前景。

创新工场董事长兼CEO李开复认为,“如果说CNN造就了今天计算机视觉领域的突破和众多应用,‘预训练大模型+微调’也将带来自然语言的百花齐放的发展,用数据智能驱动各类业务的升级。”

轻量型「孟子」模型比肩千亿大模型!AI大牛周明率队刷新CLUE新纪录相关推荐

  1. 轻量型模型比肩千亿大模型,新一代中文语言模型孟子,刷新CLUE纪录!

    转自:机器之心 近日,澜舟科技 - 创新工场团队与上海交通大学.北京理工大学等单位联合研发的中文语言模型-孟子轻量型模型,超越腾讯.搜狗等公司,在中文语言理解评测 CLUE 榜单上登顶第一,刷新业界记 ...

  2. AI大牛周明打造的轻量“孟子模型”开源!靠10亿参数冲上CLUE榜第三,可用于新闻分类、文案生成...

    明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 只用10亿参数就杀进中文自然语言理解CLUE榜单前三的孟子模型,现在开源了! 其打造团队澜舟科技-创新工场最新宣布,基于孟子通用模型,他们将 ...

  3. 全球首个知识增强千亿大模型鹏城-百度·文心发布

    作为当前人工智能发展的重要方向,预训练大模型已成为 AI 领域的技术新高地. 12月8日,鹏城实验室与百度联合召开发布会,正式发布双方共同研发的全球首个知识增强千亿大模型--鹏城-百度·文心(模型版本 ...

  4. DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍

    DeepSpeed is a deep learning optimization library that makes distributed training and inference easy ...

  5. 对话AI顶尖大牛周明老师:大模型的机遇和挑战?

    Datawhale学习 分享人:周明老师,Datawhale 特邀嘉宾 这次 Datawhale开源学习 特别邀请了周明老师分享: 周明,澜舟科技创始人兼CEO,中国计算机学会 CCF 副理事长.NL ...

  6. 实习生风采 · 贰 | 张倬胜同学:攻关「孟子」轻量化预训练模型

    来源 | 澜舟科技 01 由游戏出发的计算机之路 大家好!我叫张倬胜,是上海交通大学20级博士研究生,去年3月来到澜舟科技实习,从事「孟子」预训练模型的技术研发及其在中文语言理解任务的应用. 性格读博 ...

  7. 百度:YOLOX和NanoDet都没我优秀!轻量型实时目标检测模型PP-PicoDet开源

    作者丨happy    编辑丨极市平台 导读 百度提出新型移动端实时检测模型PP-PicoDet.本文对anchor-free策略在轻量型检测器中的应用进行了探索:对骨干结构进行了增强并设计了一种轻量 ...

  8. 【深度学习】百度:YOLOX和NanoDet都没我优秀!轻量型实时目标检测模型PP-PicoDet开源...

    作者丨happy 编辑丨极市平台 导读 百度提出新型移动端实时检测模型PP-PicoDet.本文对anchor-free策略在轻量型检测器中的应用进行了探索:对骨干结构进行了增强并设计了一种轻量Nec ...

  9. android 人脸识别_小模型,高精度!小视科技推出极致轻量型人脸识别SDK

    AI 落地为王时代的到来,使得人脸识别的精度和速度备受人们关注.近年来,随着模型压缩.量化技术的进步,模型运行速度也越来越快.对于一些特定的人脸检测任务,轻量型的人脸识别SDK即可满足需求. ▲图源网 ...

最新文章

  1. pycharm安装pytorch报错 提示系列问题 torch 包找不到因为pip版本低,结果升级了pip从19.3到20.2 4又提示高版不支持torch安装
  2. Tensorflow 变量的共享
  3. jQuery用于请求服务器的函数
  4. 两行代码实现字符串倒置
  5. 统计gitlab代码行脚本_详解代码统计工具cloc--计算文件数、空白行数、注释行和代码行...
  6. 操作系统习题——第一章
  7. 数据科学家为什要用Git?怎么用?
  8. 单片机如何在一数据包前加标识呢_单挑Google面试官,一上来就问我Chrome底层原理和HTTP协议(万字长文)...
  9. tcp socket编程 java_JAVA TCP Socket编程 计算题
  10. 2020-11-30 OpenCV人工智能图像处理学习笔记 第3章 计算机视觉加强之几何变换 warpAffine
  11. Mybatis-Plus
  12. log4j自定义新的级别
  13. 如何用excel实现并列排序
  14. Q50 数组中重复的数字
  15. 移远公司 NB-IoT模块AT指令详细解释
  16. Mysql中查询系统时间的方法
  17. 九步教你笔记本开箱验机 联想拯救者安全下车
  18. html 判断是否是数字,判断是否是数字或者是否是整数.html
  19. 政策频出 | 明确应用商店职责,聚焦个人信息保护
  20. 三一重能科创板上市:年营收102亿 市值470亿

热门文章

  1. Matlab中用GUI做计算器,怎样用MATLAB中的GUI做一个简单计算器
  2. 将线程pid转成16进制_如何使用jstack分析线程状态
  3. oracle增加数据时报没安装java_在linux上安装Oracle Developer Tools for VS Code
  4. 知识图谱能否成为企业下一代的数据仓库
  5. drop truncate delete区别
  6. 3168串口java_电子称串口读取数据(转)
  7. 看完就忘!看完就忘!我感觉我要废了
  8. 学习谭浩强老师的《C程序设计》,必配《C程序设计伴侣》!
  9. 基于深度学习的Person Re-ID(综述)
  10. 干货!图神经网络及其自监督学习