澜舟科技开源轻量级中文语言预训练模型——孟子模型
每天给你送来NLP技术干货!
来自:澜舟科技
今年七月,澜舟科技推出的孟子模型以十亿参数刷新了此前百亿、千亿级别参数模型轮番霸榜的中文语言理解权威评测基准 CLUE 榜单。为了促进自然语言处理技术在更广泛实际场景中的应用,澜舟科技近日开源了轻量级中文预训练语言模型——孟子模型。孟子模型基于轻量级、高效训练研究路线,有利于快速、低成本地落地现实业务场景。
轻量级孟子模型
近年来,预训练模型(PLM)的热度逐年升高,其发展极大提升了 NLP 任务的性能,促进了 NLP 技术向更实际的应用场景发展。而如今预训练模型有向更大模型、更多数据发展的趋势,同时也意味着它的时间成本和资源成本更加高昂。这制约了 NLP 应用于更广泛的实际场景。在实际的业务场景中,受硬件、软件、人力等方面的成本制约,十亿乃至百亿的模型在软硬件成本、研发周期等问题上是很难接受的。因此,我们迫切需要一个规模适中但功能同样强大的模型。
孟子有云:“以力服人者,非心服也,力不赡也”;“权,然后知轻重;度,然后知长短”。这两句话恰好体现了 NLP、AI 技术广泛使用带来的认知智能从“相关”到“认知”的转变。基于语言学信息融入和训练加速等方法,澜舟科技研发了孟子系列模型。由于与 BERT 保持一致的模型结构,孟子模型可以快速替换现有的预训练模型。基于孟子通用模型,澜舟科技本次共开源了四个模型,分别适用于不同的任务场景。
相对于已有的中文语言模型,孟子模型实现了多项突破:
坚持“小而精”的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。
使用人类先验知识引导模型训练,让模型更高效率获得知识。孟子模型具备顶尖的语言理解能力,在权威 CLUE 中文理解评测的总排行榜,分数突破84分,逼近人类基准分数(85.61)。
灵活的领域和场景适应能力,方便快速定制和应用。基于 T5-style 的端到端生成的训练范式,同步适配BERT-style的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。
孟子轻量化预训练模型研究从训练优化、知识增强和数据增强展开。训练策略上,在不改变模型结构、保证通用性的基础上,优化主流的自编码和自回归的训练方式,减少模型预测偏差,使得模型训练更快、性能更强、表现更棒。知识方面,我们引入语言学知识、知识图谱、和多模态信息来增强语言模型的上下文感知和认知推理能力。数据方面,我们使用领域数据,更好地让孟子模型服务于垂直领域,应用于现实场景。
详细的技术报告请参考:
https://arxiv.org/abs/2110.06696
下游任务表现
孟子模型在下游任务中有出色表现,目前已在多个领域成功落地实践,衍生出多项行业领先的产品,涵盖文本生成、行业搜索、机器翻译等诸多领域。
CLUE 任务
金融领域任务
图片描述
与相同规模甚至更大规模的模型相比,孟子模型表现出了显著的性能提升。由于与 BERT 保持一致的模型结构,孟子模型可以被视为现有 PLM 强有力的替换方案。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!
澜舟科技开源轻量级中文语言预训练模型——孟子模型相关推荐
- T5 PEGASUS:开源一个中文生成式预训练模型
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 去年在文章那个屠榜的T5模型,现在可以在中文上玩玩了中我们介绍了 Google 的多国语言版 T5 模型( ...
- 一文看完澜舟科技被EMNLP'22录用的三篇论文
每天给你送来NLP技术干货! 来自:澜舟科技 作为NLP领域的新创企业,澜舟科技非常注重对核心技术的研究和实习生的培养.自 2021 年成立以来,澜舟已培养了来自国内外知名高校的 120 名余位实习生 ...
- 金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0
出品 | AI科技大本营 头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...
- 北京招聘 | 澜舟科技招聘NLP工程师、NLP研究员、产品项目经理
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 澜舟科技 澜舟科技是一家认知智能公司,针对商业场景数字化转型.以自然语言处 ...
- 来自澜舟科技创始人周明的一封信
今天是 6 月 10 日,对澜舟人是一个很特别的日子:澜舟科技满一周岁了!澜舟的历史揭开了新篇章!在过去的一年里,全体澜舟人在各界朋友的支持下,日复一日兢兢业业地工作,使得澜舟取得了飞跃的发展.我想借 ...
- 交互式多模型_26亿参数,智源、清华开源中文大规模预训练模型
近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB. 26亿参数,智源.清华开源中文大规模 ...
- 澜舟科技创始人兼CEO周明受邀出席“基础科学与人工智能论坛”
由首届国际基础科学大会主席丘成桐先生发起的"基础科学与人工智能论坛"于7月23日下午在国家科技传播中心举办.澜舟科技创始人兼CEO.中国计算机学会CCF 副理事长.创新工场首席科学 ...
- EMNLP 2021 | 百度:多语言预训练模型ERNIE-M
作者 | Chilia 哥伦比亚大学 nlp搜索推荐 整理 | NewBeeNLP 2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种 ...
- 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...
作者 | HFL 来源 | 哈工大讯飞联合实验室(ID:rgznai100) 为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中 ...
- 找不到中文语音预训练模型?中文版Wav2vec 2.0和HuBERT来了
©作者 | 腾讯游戏知几AI团队,西工大ASLP组 来源 | 机器之心 近日,腾讯游戏知几 AI 团队与西工大 ASLP 组联合发布了基于 WenetSpeech 1 万小时数据训练的中文版 Wav2 ...
最新文章
- [JavaScript] JavaScript 值类型使用:与数组有关的API
- AttributeError: 'str' object has no attribute 'decode' django问题
- Matlab 自带机器学习算法汇总
- java生成数据插入hbase_hbase实战之javaAPI插入数据
- Opatch java 路径_Windows平台下opatch apply报错:OUI-67073
- 看到这个数据库设计,我终于明白了我和其他软测人的差距
- 石头高墙怎么放_朱良志:古人对石头的审美
- 如何删除PeopleSoft Process Definition
- 【PTA】7-1 jmu-Java-01入门-取数字浮点数(5分)
- 利用Office公式编辑器特殊处理逻辑的免杀技术分析(CVE-2017-11882)
- 计算机英语加密信息,计算机信息安全中数据加密技术-计算机英语论文-计算机论文(10页)-原创力文档...
- 针对2020年市面上短信供应商的对比(8家SMS供应商对比)
- Linux学习整理-终端快捷键(常用)
- jmail组件 java,分享Jmail发送邮件工具类
- 中小企业网站建设方案
- 优秀数智生态伙伴|上海用诚软件廖晓军:以人才迭代推动云转型,实现专业化发展...
- CAD二次开发(C#) 第二节
- 91手机助手电脑版官方版
- 计算2个时间段的重叠天数
- MobaXterm - 远程连接工具
热门文章
- 《火球——UML大战需求分析》(第3章 分析业务模型-类图)——3.7 关于对象图
- CF321E Ciel and Gondolas BZOJ 5311 贞鱼
- EMACS 使用入门
- STM32:配置定时器为PWM输出模式以及编码器接口模式
- Jenkins+码云 搭建持续集成环境
- spring boot 实现文件下载
- GitHub提交代码后不显示用户名只显示邮箱
- 简单使用NSURLConnection、NSURLRequest和NSURL
- The constness of a method should makes sense from outside the object
- 「2013-9-14」Change Remote Desktop Port