1.75万亿参数,刚刚智源发布了全球最大预训练模型“悟道2.0”
中国的AI内行顶级盛会——2021北京智源大会又来了。
每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio、David Patterson两位图灵奖得主在内的200多位学者将一起对AI的技术和应用进行深度探讨。
Bengio更是带来了他的System2深度学习理论最新进展。
但是在今年的智源大会上,最重磅的“明星”却不是这些学者。
因为全球最大的预训练模型的纪录,被中国团队刷新了。
真正的主角是它!
全球最大预训练模型“悟道2.0”发布
就在刚刚,北京智源人工智能研究院发布了“悟道2.0”,达到1.75万亿参数,超过之前由谷歌发布的Switch Transformer,成为全球最大的预训练模型。
今年3月22日,智源才发布了“悟道1.0”,这是由智源研究院学术副院长、清华大学教授唐杰领衔,来自北大、清华、中科院等单位的100余位AI科学家团队联合攻关完成。
2个多月后,悟道进化到2.0,模型规模爆发级增⻓,而参数越大,意味着越强的通⽤⼈⼯智能潜能。
“悟道2.0”不仅仅是个语言模型,它是一个全能选手,一统文本和视觉两大领域,在问答、绘画、作诗、视频等任务中正在逼近图灵测试。
“悟道2.0”一举在世界公认的9项Benchmark上获得了第一的成绩。
尤其值得⼀提是,这个世界最⼤万亿模型,完全基于国产超算平台打造,其基础算法是在中国的神威超算上完成模型训练。
对于AI研究者和企业来说,最重要的是,“悟道2.0”和GPT-3小批量付费使用的模式不同,将向AI社区和企业公开预测模型,并从今天起公开API,所有人都可以免费申请使用。
悟道背后
那么,为什么新⼀代“全球最⼤”预训练模型,会出现在智源“悟道”攻关团队?
智源之所以能打造出1.75亿参数“悟道2.0”,是因为拥有开创性的FastMoE,打破了分布式训练的瓶颈,这是实现“万亿模型”基⽯的关键。
过往,由于谷歌万亿模型的核⼼技术MoE和其昂贵的硬件强绑定,绝⼤多数⼈⽆法得到使⽤用与研究机会。
MoE是⼀个在神经⽹络中引⼊若⼲专家⽹络的技术,能直接推动预训练模型经从亿级参数到万亿级参数的跨越,但离不不开对谷歌分布式训练框架mesh-tensorflow和定制硬件TPU的依赖。
FastMoE打破了这⼀限制,作为⾸个支持PyTorch框架的MoE系统,它简单易⽤、灵活、⾼性能,并针对神威架构进行了优化,可在国产超算上完成训练。
另外,还有两项技术赋予了悟道更为强大的能力。
一是最大的英文通用预训练模型GLM 2.0。此前,GLM首次打破BERT和GPT壁垒,开创性地以单⼀模型兼容所有主流架构。新一代模型以100亿参数量, ⾜以匹敌微软170亿参数的Turing-NLG模型,在LAMABADA填空测试中表现更优。
二是世界最大中文多模态生成模型CogView,参数量达40亿,可直接从中文文字生成图像,在MS COCO文本生成图像任务权威指标FID上,CogView打败OpenAI今年年初发布的130亿参数的DALL·E,获得世界第一。
CogView已经和阿里达摩院合作,将这项技术用于服装设计领域。
针对小样本学习系统,智源悟道团队提出了微调方法P-Tuning,极大缩小了少样本与全监督学习条件下微调性能的差距。
在训练大规模预训练模型时,要消耗大量的算力资源和时间,为了提升其产业的普适性和易用性,悟道团队搭建了⾼效预训练框架CPM-2:一个在编码、模型、训练、微调、推理AI全链路上的高效框架。
最后,唐杰教授还公布了全新数据集WuDaoCorpora,这是目前全球最大的中文文本数据集(3TB)、多模态数据集(90TB)和中文对话数据集(181G)。
悟出了什么?
智源并不只满足于技术上的突破,还要以大模型为起点,打造未来AI平台。
悟道要成为像“电网”一样的基础设施,为AI在产业上的应用提供源源不断的动力。
大会现场举行了与美团、⼩⽶、快手、搜狗、360、寒武纪、好未来、新华社等21家企业进行战略合作的签约仪式。
联合从行业龙头到中小创新企业,共同组建“悟道大模型技术创新生态联盟”,以模型研发和应用促进产业聚集。
如在与新华社的合作中,将大模型应用于新闻智能化转型。悟道能够进行新闻内容处理、图⽂生成、传播优化等,还具备接近⼈类的图⽂创意能力,可以作诗、 问答、创意写作。
其中,最让人期待的是“悟道”与“小冰”的梦幻联动,这两个AI今天一起打造了虚拟大学生“华智冰”。
华智冰同学使用悟道大模型已经掌握了写诗、绘画、作曲等技能,接下来还要拜唐杰教授为师,进入清华唐杰实验室学习,增进自己的能力。
1.75万亿参数,刚刚智源发布了全球最大预训练模型“悟道2.0”相关推荐
- 1.75万亿参数、在国产超算上训练,刚刚智源发布了全球最大预训练模型“悟道2.0”...
边策 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio ...
- 交互式多模型_26亿参数,智源、清华开源中文大规模预训练模型
近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB. 26亿参数,智源.清华开源中文大规模 ...
- 5300亿参数,SOTA屠榜!最大NLP预训练模型新王登基,微软英伟达联手称霸
来自:新智元 [导读]微软和英伟达联合发布了迄今为止最大.最强的人工智能语言模型:Megatron-Turing自然语言生成模型(MT-NLG).其包含5300亿个参数,在一系列自然语言任务包括阅读理 ...
- 专访唐杰:万亿参数大模型只是一个开始
机器之心原创 作者:闻菲 智源悟道团队不仅会在「大」这条路上走下去,还将对构建「神经-符号结合模型」进行更深入和底层的探索. 图灵写于 1950 年的论述<计算机器与智能>被誉为人工智能的 ...
- 仅480块GPU搞出万亿参数大模型!达摩院3个月打造,出手即商用
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 不要6000张GPU!不要2000张TPU! 只要480,万亿参数大模型"抱回家"! 还没完,更惊艳的在后边. 同为万亿 ...
- 《预训练周刊》第28期:M6-10T:高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...
No.28 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练.图像编码.气候文本.对比学习.文本生成评估.小样本学习.决策推理 ...
- 《AI系统周刊》第5期:Cerebras发布可运行120万亿参数AI模型的CS-2芯片
No.05 智源社区 AI系统组 A I 系 统 研究 观点 资源 活动 关于周刊 AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,我们 ...
- LIVE 预告 | 快手宋洋:千亿特征,万亿参数,快手推荐精排模型的发展史
随着GPT-3给人们带来的震撼,大模型在各个应用领域得到迅速的发展和应用. 近期,媒体平台「机器之心」上发布了一篇文章「1.9万亿参数量,快手落地业界首个万亿参数推荐精排模型」,其中提到快手开发的精排 ...
- 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力
梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,商汤又多了一项"亚洲第一". 就在上海临港,商汤自建的人工智能计算中心(AIDC)交付使用,一举成为亚洲最大的AI ...
最新文章
- TensorFlow基础11-(小批量梯度下降法和梯度下降法的优化)
- 2017年全球光伏需求有望首次突破100吉瓦
- TC264信标组 双车组 资源规划 库函数示例
- 20150127--Session入库
- 设置DataGrid自动生成列的宽度
- usb扩展坞同时接键盘鼠标_轻薄本的办公伴侣,ORICO十一合一扩展坞体验
- java中的位移运算符_Java 位移运算符
- [Udacity] Machine Learning tools
- 【Kafka】《Kafka权威指南》入门
- C++ 入门5 ---- 类和动态内存分配(一)
- Android Launcher 应用开发
- 数字信号处理课程设计---带通滤波器的设计及其matlab实,数字信号处理课程设计---带通滤波器的设计及其MATLAB实现...
- Exploit编写教程1:栈溢出
- SQL查找每科最高分和人
- 移动硬盘数据错误循环冗余检查,要怎么恢复资料
- 人脸识别签到考勤系统毕业设计,人脸识别考勤系统设计与实现,人脸识别系统论文毕设作品参考
- 【C++】变量与数据类型
- 人工智能 --- Python求解线性和非线性规划问题
- 华为路由器配置命令汇总
- 什么叫诚实_诚信是什么