2018年以来预训练模型技术成功将深度学习框架应用于海量无标注数据,在大数据和大算力的支持下,「大模型」一定程度上具备了通用的语言能力,可以非常方便地通过微调技术适配到广泛下游任务,任务性能得到普遍显著提升,成为自然语言处理等领域的最新学习范式,前沿动态日新月异。

「Big Model Meetup」系列活动是由智源研究院悟道团队、青源会、清华大学计算机科学与技术系博硕论坛、中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供媒体支持。该系列活动旨在建设“大模型”研究和应用的“技术社区”,推动国内大模型技术的交流与发展,打造相关专家学者、爱好者深度的交流分享平台。

BMMeetup第二期以大模型加速计算技术为主题,于2021年10月31日上午线上召开,邀请了清华大学翟季冬老师和陈键飞老师为特邀讲者做引导发言介绍模型并行方法和量化方法的前沿动态,七位青年学者做技术报告。欢迎报名参加。

时间和直播

  1. 会议时间:2021年10月31日(周日)09:00-12:00

  2. 直播预约:https://event.baai.ac.cn/activities/175(或点击阅读原文)

会议调查

  • 地址:http://forms.baai.ac.cn/f/PthYGx

  • 扫码:

会议流程

议题详情


- 特邀报告 -

题目:基于国产超级计算机的百万亿参数超大预训练模型的训练

报告摘要:大规模预训练模型已经在一系列重要应用中显示出其先进性。随着预训练模型规模的急剧增长,训练此类模型需要海量的计算和存储能力。为此,我们在国产新一代高性能计算机上训练了一个130万亿参数的超大规模预训练模型,模型参数与人脑中的突触数量相媲美。本报告中,介绍我们在加速这一模型中遇到的挑战以及相应的解决方法。

讲者:翟季冬 清华大学计算机系长聘副教授,智源青年科学家

讲者简介:翟季冬,清华大学计算机系长聘副教授,博士生导师。现为清华大学计算机系高性能所副所长,ACM中国高性能计算专家委员会秘书长、北京智源青年科学家。主要研究方向包括高性能计算、性能评测和编译优化等。研究成果发表在相关领域顶级学术会议和期刊——SC、ICS、PPOPP、ASPLOS、MICRO、OSDI、ATC、IEEE TC、IEEE TPDS等。研究成果获ACM ICS 2021最佳学生论文奖、SC 2014 Best Paper Finalist、ICDCS 2020 Best Paper Honorable Mention奖。担任NPC 2018程序委员会主席、IEEE Cluster 2021领域主席、SC 2022领域副主席,SC、ICS、PPOPP等国际学术会议程序委员会委员。目前担任《IEEE Transactions on Computers》、《IEEE Transactions on Parallel and Distributed Systems》、《IEEE Transactions on Cloud Computing》等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十一次获得世界冠军。获教育部科技进步一等奖、中国电子学会科学技术一等奖、中国计算机学会优秀博士学位论文奖、IEEE TPDS杰出编委奖、国家自然科学基金优秀青年科学基金(2017)、CCF-IEEE CS青年科学家奖。


题目:基于随机量化的高效神经网络训练理论及算法

报告摘要:深度学习模型的规模与日俱增,训练神经网络的计算和内存需求快速增长。量化神经网络降低了神经网络计算中的数值精度,是加速神经网络训练、节省内存开销的有效手段。本次报告将介绍量化神经网络的理论研究现状,并介绍量化神经网络理论保证方面的一些最新工作。

讲者:陈键飞 清华大学计算机系助理教授

讲者简介:陈键飞,清华大学计算机系助理教授。分别于2014、2019年在清华大学计算机系取得工学学士、博士学位。主要从事机器学习的高效算法研究,特别是量化神经网络、随机优化算法、概率推理、主题模型等。在NeurIPS、ICML等国际会议发表论文20余篇,研究成果获CCF优秀博士学位论文奖。


- 技术报告-

题目:FastMoE: 开源大规模分布式 MoE 训练框架

报告摘要:MoE 已经成为通往超大规模预训练模型的重要工具。报告将回顾 MoE 的发展历史和它在 Google 的千亿参数模型 GShard 和万亿参数模型 Switch-Transformer 中的应用。并介绍一个我们开发的大规模分布式 MoE 训练框架 FastMoE,着重介绍最新的 FastMoE v0.2 的一些新特性。包括(1)全新的负载均衡模块,支持 NoisyGate、GShard、Switch Transformer 等负载均衡策略;(2)同时支持英伟达 GPU 平台 和 神威国产超算平台;(3)在神威国产超算上1.75万亿模型训练实战  。

讲者:裘捷中 清华大学计算机系博士生

讲者简介:裘捷中,清华大学计算机科学与技术系六年级博士生,导师为唐杰教授,曾获得 2018 MSRA 微软学者提名奖,和 2020 世界人工智能大会 WAIC 青年优秀论文入围奖。他的研究兴趣主要包括图表示学习和大规模预训练。


题目:MoEfication:超大规模预训练语言模型稀疏化技术

报告摘要:基于Transformer的预训练语言模型受益于大模型容量,在众多NLP任务上取得优异的性能,同时也需要巨大的计算成本。我们观察到在模型推理过程中,大多数输入只激活了模型中极小比例的神经元。因此,我们提出将一个大模型转化为其具有相同模型大小的MoE版本,加速大模型的推理。实验结果表明,MoE模型可以大大降低计算成本,在多个  下游任务中,只激活模型的20%的FFN参数不会显著影响性能。

讲者:张正彦 清华大学计算机系博士生

讲者简介:张正彦:清华大学计算机系2019级博士生,导师为刘知远副教授,研究方向为预训练语言模型及相关加速。相关工作发表在ACL、EMNLP、TKDE等会议及期刊上。


题目:ELUE高效模型评测与弹性BERT

报告摘要:近期超大规模预训练模型将很多NLP任务的准确率提升到了前所未有的高度,相比于训练更大的模型去进一步刷新SOTA,越来越多的工作开始追求模型的多维度提升,比如保持一定准确率的同时提升模型推理效率,即追求Pareto SOTA。然而,这些高效推理模型大多仍然在以准确率为中心的评测基准(如GLUE)上评测,这造成了对比不全面、结果不开源、评测不标准、提交不便捷等问题。对此,我们发布了ELUE(http://eluebenchmark.fastnlp.top/),一个针对高效NLP模型的标准化评测平台,它采用性能、参数量、FLOPs等指标对模型进行多维评测,采用ELUE Score对模型进行排序并形成Leaderboard。同时,我们还为高效NLP模型预训练了一个强大的基线模型——ElasticBERT,它既可以直接截取前几层来静态地使用,也可以作为动态早退模型的Backbone来动态地使用,实验表明ElasticBERT在两种使用场景下都取得了极具竞争力的结果。

讲者:孙天祥 复旦大学博士生

讲者简介:孙天祥:复旦大学2019级博士生,导师为邱锡鹏教授和黄萱菁教授,主要关注自然语言处理中的多任务学习、知识融入、高效推理等方向,研究成果发表于AAAI, COLING, ACL, NAACL等会议,担任相关会议审稿人。


题目:CogView及其稀疏注意力加速

报告摘要:非限定领域文本到图像的生成一直是一个开放的问题,这需要一个强大的生成模型和跨模态的理解的能力。我们提出了CogView,一个带有VQ-VAE标记器的40亿参数Transformer来解决这个问题。我们还演示了各种下游任务的微调策略,例如风格学习、超分辨率、文本图像相关性排序等,以及稳定预训练的方法,例如消除NaN损失。CogView在MS COCO数据集上实现了最先进的FID,优于以前基于GAN的模型和最近的类似工作DALL-E。由于生成高分辨率图像的序列长度远长于文本数据,本次演讲着重讲解CogView中的稀疏注意力机制。
讲者:丁铭 清华大学计算机系博士生



讲者简介:丁铭,清华大学计算机系博士生, 导师为唐杰教授。主要研究方向为认知智能与大规模预训练,曾在KDD、ACL、NeurIPS等会议上发表多篇一作文章。


题目:CPM-2中的大模型高效计算技术

报告摘要:近年来预训练语言模型的规模不断变大,在性能提升的同时,也带来了计算效率问题。我们在训练CPM-2时构建了一套高效的计算框架,缓解大模型预训练、微调以及推理中的效率问题,训练出具有110亿稠密参数的CPM-2,以及其具有1980亿参数的MoE版本。本次演讲着重讲解训练CPM-2过程中涉及到的大模型高效计算技术,具体包括(1)稠密模型的3D并行加速(2)MoE模型的计算调度加速(3)大模型初始化及微调技巧。

讲者:韩旭 清华大学计算机系博士生

讲者简介:韩旭:清华大学计算机系2017级博士生,导师为刘知远副教授,研究方向为自然语言处理、信息抽取、预训练语言模型,在自然语言处理领域国际会议ACL、EMNLP、COLING、NAACL上发表多篇论文。


题目:预训练语言模型的知识继承技术

报告摘要:最近对大规模预训练语言模型 (PLM) 的探索(例如GPT-3)展示了具有大量参数的PLM的强大功能,然而,训练大规模PLM 需要大量的计算资源,这既耗时又昂贵。此外,现有的大规模PLM主要是从头开始训练,忽略了许多现有的PLM的可复用性。为此,我们探讨了如何基于已训练的PLM,训练更大的PLM的问题,我们将其命名为“知识继承”。具体而言,我们会从两个方向探讨该问题:(1)如何利用“反向蒸馏”的方法,将小模型的知识传授给大模型以及(2)如何通过小模型参数复用,提升大模型的训练速度。实验证明,两种方法均可以高效提升大模型的训练收敛速度,节省大量算力资源。

讲者:秦禹嘉 清华大学计算机系博士生

讲者简介:秦禹嘉:清华大学计算机系2020级博士生,导师为刘知远副教授,研究方向为预训练语言模型、知识迁移等。相关工作发表在ICLR、ACL、TASLP等会议及期刊上。


题目:BMInf低资源大模型推理技术与工具包

报告摘要:随着人们对大规模预训练语言模型的探索,以GPT-3为代表的一系列预训练语言模型以其强大的能力,促进了新一代人工智能应用的发展,在巨大参数量的加持下,人工智能可以完成语言的理解和推理也可以完成广告的创作。但是,在大模型巨大的参数量下,往往隐藏着巨大的算力需求。仅仅是硬件门槛的成本,就已经让很多应用开发者、研究人员望而却步。为了让更多人能在低成本的硬件上运行大模型,我们推出了BMInf工具包,让拥有110亿参数的CPM-2模型也能以不错的效率运行在GTX 1060这样普通的硬件设备上。

讲者:曾国洋 BMInf工具包作者,OpenBMB联合发起人

讲者简介:清华大学2016级本科毕业生,BMInf工具包作者,OpenBMB联合发起人之一,在CPM团队中负责底层训练框架编写和优化。

联系我们

微信扫描下方二维码进入「智源社区预训练社群」,社群内交流,会有工作人员及时解答。

点击左下角“阅读原文”,报名活动!

直播活动丨BMMeetup第2期:大模型计算加速技术,2场特邀和7位青年学者技术报告联袂上演...相关推荐

  1. 直播丨BMMeetup第2期:大模型计算加速技术,2场特邀和7位青年学者技术报告联袂上演...

    2018年以来预训练模型技术成功将深度学习框架应用于海量无标注数据,在大数据和大算力的支持下,「大模型」一定程度上具备了通用的语言能力,可以非常方便地通过微调技术适配到广泛下游任务,任务性能得到普遍显 ...

  2. 直播活动丨BMMeetup第1期:大模型Prompt Tuning技术,8场学术报告和Poster提前下载...

    「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...

  3. 周五下午3.5h直播丨今年第1期大咖讲坛:数据库高可用容灾方案的实践与探索...

    03月12日 14:00 - 17:30 线上直播 活动概述 随着互联网应用的高速发展,海量数据呈爆炸式增长,肩负信息系统存储和管理使命的数据库技术,在守护企业核心资产中,发挥着日益重要的决定性作用. ...

  4. 智能化软件开发微访谈·第二十四期 大模型时代的智能化软件生态(讨论汇编)...

    CodeWisdom "智能化软件开发沙龙是由CodeWisdom团队组织的围绕智能化软件开发.数据驱动的软件开发质量与效能分析.云原生与智能化运维等相关话题开展的线上沙龙,通过微信群访谈交 ...

  5. 倒计时四天!第2期大模型讲习班报名中,顶尖专家面授,多角度系统培训

    大模型前沿技术讲习班第一季第二期(S01E02)将在2023年4月24日至25日线下召开,我们邀请了来自顶尖科研领域的权威专家联合授课.上海交通大学助理研究员陈露,中国人民大学准聘助理教授李崇轩,中国 ...

  6. GLM国产大模型训练加速:性能最高提升3倍,显存节省1/3,低成本上手

    作者|BBuf.谢子鹏.冯文 2017 年,Google 提出了 Transformer 架构,随后 BERT .GPT.T5等预训练模型不断涌现,并在各项任务中都不断刷新 SOTA 纪录.去年,清华 ...

  7. 周五下午3h直播丨2021第5期大咖讲坛:数据库安全与智能运维

    活动时间 8月6日  14:00-16:40 活动概述 数字化时代,随着业务的激增和数据量的爆发,数据库的规模也在急速扩大,传统运维方式已逐渐跟不上业务发展的需求,使得各种矛盾接连出现.为保障数据库& ...

  8. 直播预告丨搭建高质量用户数据平台,加速车企数字化转型

    ▼ 点击"阅读原文" ,参与直播赢好礼

  9. 提升大模型研究应用技能:第2期前沿讲习班报名,顶尖专家面授,多角度系统培训...

    人工智能研究与应用范式正经历一场剧变,越来越多的顶级团队和杰出人才纷纷加入这一变革浪潮.作为AI大模型科研先锋,智源研究院携手一批卓越的学者与工程师,致力于将尖端技术与经验传授给有潜力的学习者,通过高 ...

最新文章

  1. beego api mysql_beego搭建api服务
  2. Eureka 2.0 开源流产,真的对你影响很大吗?
  3. 聚类算法中各种距离的计算与python的具体实现代码
  4. Zookeeper基于Java 访问-节点权限设置
  5. ANSYS——后处理中单元表(ELEMENT table)的作用、创建、使用
  6. OpenCV编译安装
  7. asp.net MVC 中@Html.Partial,@Html.Action,@Html.RenderPartial,@Html.RenderAction区别
  8. 你看得懂的CSMA介质访问控制原理
  9. Java实现手机号码、邮箱账号加密
  10. c语言 项目 轮子,程序员们为什么热衷于发明轮子?
  11. CSDN博客专家认证通过暨我的CSDN成长之路!
  12. python中单引号的作用_python里的单引号和双引号的有什么作用
  13. 计算机cpu任务管理器,任务管理器里CPU使用率过高问题
  14. LaTeX 使用 \begin{aligned} 出现错误代码 Environment aligned undefined. \begin{aligned}
  15. 动作捕捉(Motion Capture)文件BVH的解读笔记
  16. 腾讯电竞广泛布局,难逃城市同质化怪圈?
  17. 案例驱动式Python学习笔记【第六篇】电子宠物
  18. 雷神之锤冠军游戏角色高清Mac动态壁纸
  19. BHAR-事件研究法-示例数据Stata计算代码
  20. Unity DoTween 自定义曲线运动

热门文章

  1. PHP设计模式 外观模式(Facade)
  2. ajax传递对象数据集,用jquery和json从后台获得数据集的代码
  3. 单元格不规则数据分列_菜鸟记527怎么3秒做完别人零下20度加班处理人工换行的数据?...
  4. php 任意文件上传,任意文件上传漏洞
  5. linux history存放位置,Linux中history历史命令使用方法详解
  6. java什么时候用有参_Java有陷阱——慎用入参做返回值
  7. oracle单表高并发,见过这么高并发( logons current)的数据库么?
  8. ps图片边缘淡化接近背景色_7招让你抠图不再犯愁之PS抠图技巧大合集!
  9. PTA 基础编程题目集 7-24 约分最简分式 C语言
  10. APT(高级可持续性威胁)