明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI

只用10亿参数就杀进中文自然语言理解CLUE榜单前三的孟子模型,现在开源了!

其打造团队澜舟科技-创新工场最新宣布,基于孟子通用模型,他们将开源4个模型。

分别可用于文本分类、金融新闻分类、文案生成和图片描述等场景。

今年7月,这个由AI大牛周明率队打造的轻量级模型,一经发布就惊艳众人。

它以十亿参数完成此前百亿、千亿参数模型创造的纪录,打破近年来CLUE榜单被腾讯、搜狗、华为、阿里达摩院轮番霸榜的格局。

截至目前,孟子模型仍旧是榜单前五中唯一非巨头企业推出的模型,且排名第三

下游任务表现出色

CLUE榜单可是自然语言理解玩家的必争之地,腾讯、搜狗、华为、阿里达摩院等更是轮番霸榜刷新纪录。

而他们的大模型动辄就是百亿、千亿级的参数,仅仅只有10亿参数的孟子模型,到底是如何杀出重围的呢?

我们不妨来了解一下孟子模型。

孟子模型是澜舟科技基于语言学信息融入和训练加速等方法,研发的系列模型。

由于与BERT保持一致的模型结构(Transformer),孟子模型可以快速替换现有的预训练模型。

它可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,在文本分类、阅读理解等各类任务上表现出色。

具体来看,这次开源的4个模型架构如下:

对应各个场景来看,在金融方面的任务中,孟子模型表现优秀:

生成营销文案上,相对于GPT而言,孟子模型能够生成的语言明显更为丰富。

描述图片内容上也更为准确、细致,几乎看不出AI的痕迹。

四两拨千斤

与其他中文语言模型相比,孟子模型最大的特点就是小而精

它采用轻量化训练策略,致力于构建十亿参数级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本的落地现实业务场景。

与此同时,孟子还使用人类先验知识引导模型训练,让模型更高效率获得知识。

孟子模型具备顶尖的语言理解能力,在权威CLUE中文理解评测的总排行榜,分数突破84分,逼近人类基准分数(85.61)。

另外,基于T5-style的端到端生成的训练范式,同步适配BERT-style的判定式架构,让孟子模型便于适配行业应用,可以覆盖广泛业务场景。

在模型架构上,“孟子”也进行了全方位改进。

具体有四方面:

  • 模型结构方面,将语义角色、词性标注等语言学特征融合到Embedding表示中,基于句法约束引入注意力机制中,从而提升模型对语言学知识的建模能力。

  • 训练策略上,引入基于实体知识和Discourse的Mask机制,强化模型对语言成分和语篇关系的表征。

  • 为进一步提高训练效率,使用了大模型蒸馏和初始化小模型策略。

  • 为更好地将孟子模型适应垂直领域如金融、营销,使用了领域数据继续训练并构造相应的提示模版(Prompt),取得了明显的性能提升。

周明:未来十年孕育认知智能大机遇

最后,我们再来介绍一下孟子模型的幕后团队——澜舟科技

它是由创新工厂孵化的一家认知智能公司。

公司创始人——周明博士。

AI领域内,周明已不用过多介绍,他是公认的世界级AI科学家,自然语言处理领域的代表性人物。

周明博士在2020年加盟创新工场,担任创新工场首席科学家。

就在刚刚开幕的2021杭州·云栖大会上,我们也看到了周明博士的身影。

基于自己多年的产学研认识,他分享了自己对于认知智能的一些思考。

周明博士提到,目前神经网络的方法依赖大规模的标注数据做端到端训练。这种黑箱式系统缺乏解释能力、也不具备常识推理能力。

我们人脑在处理熟悉任务的时候,都是依赖直觉的,这有点对应预训练模型或者深度学习;

在处理新事物时,人脑就要沉静下来,用自己的知识去推理,这更像是符号计算。

他认为,当下的深度学习应该思考如何用一个模型将这二者的优势结合,也就是把数据和知识融合起来解决问题。

此外周明博士还提出,现在深度学习训练新任务,要学习所有的能力。但人类在应对新任务时,往往只是基于基础能力做了小部分的调整。

所以,如何模拟人脑、设计一系列基础能力和相应微调机制,是深度学习要思考的问题。

提及对AI行业的展望,周明博士表示:

AI正由感知智能快速向认知智能迈进,未来的十年孕育着巨大的认知智能发展和创新的机遇。

与此同时,他还在分享中透露,澜舟科技从开源起步,正在过渡到SaaS、订制和App。目前已与国内外几十所著名高校和十余个相关领域的头部企业建立了稳定的合作关系。

传送门

目前,澜舟科技已经发布了项目开源地址和技术报告,地址如下:

项目地址:https://github.com/Langboat/Mengzi
技术报告:https://arxiv.org/abs/2110.06696

参考链接:
https://mp.weixin.qq.com/s/2vFPhgX4ouETOPMbE_Sy9g

AI大牛周明打造的轻量“孟子模型”开源!靠10亿参数冲上CLUE榜第三,可用于新闻分类、文案生成...相关推荐

  1. 轻量型「孟子」模型比肩千亿大模型!AI大牛周明率队刷新CLUE新纪录

    AI 科技评论报道 编辑 | 陈大鑫 近日,澜舟科技-创新工场团队与上海交通大学.北京理工大学等单位联合研发的中文语言模型-孟子轻量型模型,超越腾讯.搜狗等公司,在中文语言理解评测CLUE榜单上登顶第 ...

  2. 对话AI顶尖大牛周明老师:大模型的机遇和挑战?

    Datawhale学习 分享人:周明老师,Datawhale 特邀嘉宾 这次 Datawhale开源学习 特别邀请了周明老师分享: 周明,澜舟科技创始人兼CEO,中国计算机学会 CCF 副理事长.NL ...

  3. 轻量型模型比肩千亿大模型,新一代中文语言模型孟子,刷新CLUE纪录!

    转自:机器之心 近日,澜舟科技 - 创新工场团队与上海交通大学.北京理工大学等单位联合研发的中文语言模型-孟子轻量型模型,超越腾讯.搜狗等公司,在中文语言理解评测 CLUE 榜单上登顶第一,刷新业界记 ...

  4. 31款轻量高效的开源 JavaScript 插件和库

    31款轻量高效的开源 JavaScript 插件和库 目前有很多网站设计师和开发者喜欢使用由[url=http://www.kubiji.cn/forum-id261.html]JavaScript[ ...

  5. 寒武纪重磅发布首款AI云芯片,陈天石要让端云结合占领10亿智能终端!

    今天,寒武纪科技放出两个重磅"炸弹": 寒武纪最新一代终端IP产品-Cambricon 1M 寒武纪最新一代云端AI芯片MLU100和板卡产品 寒武纪创始人陈天石介绍,这次最新发布 ...

  6. 大而强 VS 小而美 | 史晓东、周明等共论:大模型主导的时代,NLP 该如何演进?...

    [专栏:前沿进展]近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议.基于深度学习的自然语言处理技术正沿着"极大数据.极大模型.极大算力"的轨道,"无所不用其极 ...

  7. surface安装鸿蒙系统,#2020征文-其它#鸿蒙轻量设备侧Camera应用中的Surface使用(上)...

    一.总体描述 在鸿蒙轻量设备侧图形子系统中包含了Surface模块.这个模块模仿了Android的Surface实现,采用了生产者和消费者模型,但是也有些区别. Android中的Surface的生产 ...

  8. 开源应用中心 | 这款轻量简洁的开源论坛系统,你get了没?

    1. 背景 如果你想搭建一个论坛系统,可能有很多的开源论坛系统可以满足你的需求.但你是否感觉很多的论坛系统都过于臃肿了,在论坛系统的核心功能上堆积了很多比较鸡肋的功能,占用大量的系统资源导致花费不必要 ...

  9. 产业区块链一周动态丨蚂蚁集团计划上市,苏州成立10亿元区块链基金

    作者:邱祥宇 AI公司寒武纪今天早上在科创板上市的消息刷屏了,成立4年,市值破千亿,85后创始人身价破300亿.作为一名区块链行业记录者,顿时感觉手里的鸡腿突然不香了.还好,下午蚂蚁集团宣布启动上市的 ...

最新文章

  1. python 多继承的实现
  2. Alsa中PCM参数设置
  3. LeetCode 966. 元音拼写检查器(哈希)
  4. 深度学习(2)--常见概率分布(2)
  5. 软件工程(Rational统一过程)
  6. Nginx的HTTP运行时健康检查
  7. android点击另一个app,Android 怎么从一个APP中打开另外一个APP
  8. 亚信安全认证acse_重装出发 | 2019亚信安全合作伙伴大会珠海站召开
  9. R-数据挖掘 | 聚类分析中的各种相异(似)度计算
  10. 为什么++ [[]] [+ []] + [+ []]返回字符串“ 10”?
  11. python安装sqlalchemy-Python流行ORM框架sqlalchemy安装与使用教程
  12. 毕向东_JavaScript视频教程_javascript编程
  13. IOS视频播放器VKVideoPlayer
  14. 浅析HiShop、Shopex、ECshop、V5shop四大网店系统
  15. Win10系统安装失败?用这种方法一键就解决了
  16. ios 表情符号 键盘_如何在iPhone和iPad上从键盘上删除表情符号按钮
  17. 4宫格 android,四宫格拼图软件
  18. java 读取本地配置文件 Properties
  19. 【TensorFlow】DNNRegressor 的简单使用
  20. epub to mobi转换器

热门文章

  1. SQL数据库常见故障及解决方法
  2. 在Python中获取文件大小? [重复]
  3. 普通的旧CLR对象与数据传输对象
  4. Array.forEach短路就像调用break
  5. 在Visual Studio中使用Git [关闭]
  6. 如何在win10环境下运行debug
  7. 交通运输部部长李小鹏谈及自动驾驶:包容失败、反对垄断,力争在国家层面出台指导意见...
  8. HBase–常用API操作篇
  9. PYTHON高级全栈开发工程师-老男孩教育
  10. Element DOM Tree jQuery plugin – Firebug like functionality | RockingCode