训练千亿参数模型的法宝,昇腾CANN异构计算架构来了~
摘要:盘古的训练以「昇腾AI处理器」为基座,同时借助了「CANN 异构计算架构」,让硬件算力得以充分释放,大大缩短了训练时间!
2021年4月,“华为云盘古大模型”一炮走红AI人工智能领域。
如果你问:明明明明明白白白喜欢他,但他就是不说,白白喜欢谁?
你的同伴可能还要犹豫3秒钟,而盘古却能轻松地回答出:明明!
诸如此类的「中文同词不同义」的快速语义识别也仅仅是它的雕虫小技而已。
领先的语言理解和模型生成能力,这个大网红瞬间被贴上了“最接近人类中文理解能力”、“全球最大中文语言(NLP)预训练模型”各类标签。
标签不是白帖的,在AI领域,大智慧就意味着大模型,他背后的“千亿参数”、“TB 级内存模型”绝对是他成功的法宝!
模型大,意味着数据也大,你想到如何训练出这样大的模型了么?
盘古的训练以「昇腾AI处理器」为基座,同时借助了「CANN 异构计算架构」,让硬件算力得以充分释放,大大缩短了训练时间!
什么是CANN?
以提升用户开发效率和释放昇腾AI处理器极致算力为目标,昇腾CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构。它对上支持业界主流前端框架,向下对用户屏蔽系列化芯片的硬件差异,以丰富的软件栈功能满足用户全场景的人工智能应用诉求。
当前CANN已经发布到3.0的版本,统一编程架构,同时支持推理+训练的端、边、云全量场景,实现三大使能。
使能全场景:通过支持业界主流AI框架,支持14+种主流操作系统,实现一次开发,全场景各种硬件形态和运行环境的灵活部署。
使能极简开发:通过统一编程接口AscendCL(Ascend Computing Language),为开发者屏蔽底层处理器的差异,支持开发者只需要掌握一套API,就可以全面应用于昇腾全系列芯片+推理、训练全场景。
使能极致性能:通过软硬协同优化,亲和昇腾的图编译技术,以及超过1200个高性能算子,来释放昇腾芯片的澎湃算力。
CANN的开放能力:
CANN为开发者提供算子开发、模型开发、应用开发的全流程开发体验,可覆盖全场景应用。
- 算子开发
- DSL语言开发接口:提供了一套基于内存的开发接口,处理器上的指令映射和调度是自动实现的。开发者仅需要关注算子的数学逻辑计算,不需要了解硬件细节,即可开发出高性能的算子。根据统计可以满足60%以上算子开发需求。
- TIK语言开发接口:提供了一套比较完备的基于处理器内部Buffer可见的编程语言,开发者可以自行决定搬进搬出数据量的大小,从而充分发挥芯片的能力,提升开发算子的性能。
- 模型开发
- 支持多种模型开发框架MindSpore,TensorFlow, PyTorch, ONNX 等
- 支持通过标准化的Ascend IR(Intermediate Representation)接口隔离上层框架差异,进行直接构图和模型开发
- 应用开发
- 提供一套标准的AscendCL编程接口,提升用户APP编程效率
CANN的硬核技术:
- 高性能算子库:支持包括TensorFlow、Pytorch、Mindspore、Onnx框架在内1200+算子,开发者直接基于内置算子即可开发模型。
- 自动融合技术: 支持基于算子、子图、SCOPE多维度的自动融合,支持动态DSL融合,可有效减少计算节点,缩短计算时间,让昇腾AI处理器瞬间加速。
- 异构部署调度框架:充分利用昇腾芯片的异构执行单元,将不同的计算任务分配给最合适的计算引擎,高效协同异步流水,提升计算任务整体效率。
- 高效的内存生命周期管理算法:兼顾内存的充分复用以及数据交换的效能,实现资源与效率的均衡。
- 预置的业界主流模型库:华为昇腾Model Zoo提供100+主流模型的代码以及相应的调优参数example,为开发者提供货架式的参考实现,详细信息参见:https://www.hiascend.com/software/modelzoo
- 高性能的图下沉执行框架:将所有计算下沉到芯片,减少Host CPU与芯片之间的交互时间,实现高性能的训练和推理。
- 高性能动态图调度:支持基于异步流水的单算子执行框架,支持灵活的H2D、D2H交互,解决PyTorch等框架下动态图模式的高性能运行问题。
- 业界领先的智能调优:支持基于强化学习、遗传算法、CostModel等多种智能调优算法,提供算子级或者图级调优选择,为用户提供自动的极致性能调优体验。
CANN的5.0版本会给你带来更多想象,了解更多信息,请访问昇腾社区。
点击关注,第一时间了解华为云新鲜技术~
训练千亿参数模型的法宝,昇腾CANN异构计算架构来了~相关推荐
- 北大校友“炼丹”分享:OpenAI如何训练千亿级模型?
转载自:AI科技评论 | 编译:琰琰 大规模深度神经网络训练仍是一项艰巨的挑战,因为动辄百亿.千亿参数量的语言模型,需要更多的 GPU 内存和时间周期.这篇文章从如何多GPU训练大模型的角度,回顾 ...
- 10倍!微软开源深度学习优化库DeepSpeed,可训练1000亿参数模型
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟 报道 | 公众号 CVLianMeng 转载于 :微软 AI博士笔记系列推荐 ...
- 基于昇腾AI异构计算架构CANN的通用目标检测与识别一站式方案初体验
前言 强大的社会粘性不断催温数字化发展,目标检测与识别作为计算机视觉领域的一项关键技术,应用场景广泛,前景十分广阔,从城市治理.楼宇园区.互联网等领域,延伸至智能家居.金融.医疗影像等更多创新领域.随 ...
- 陈丹琦团队提出低内存高效零阶优化器MeZO,单卡A100可训练300亿参数模型
深度学习自然语言处理 原创 作者:辰宜 今天下午突然发现了一篇陈丹琦大佬的巨作~ 大家一起来简单瞅瞅. 本文旨在介绍一种用于fine-tuning语言模型(LM)的低内存优化器--MeZO,内存减少多 ...
- 训练千亿参数大模型,离不开四种GPU并行策略
作者|Lilian Weng.Greg Brockman 翻译|董文文 AI领域的许多最新进展都围绕大规模神经网络展开,但训练大规模神经网络是一项艰巨的工程和研究挑战,需要协调GPU集群来执行单个同步 ...
- 看MindSpore加持下,如何「炼出」首个千亿参数中文预训练语言模型?
摘要:千亿参数量的中文大规模预训练语言模型时代到来. 本文分享自华为云社区< MindSpore开源框架加持,如何「炼出」首个千亿参数.TB级内存的中文预训练语言模型?>,原文作者:che ...
- 飞桨分布式训练又推新品,4D混合并行可训千亿级AI模型
点击左上方蓝字关注我们 最近,飞桨提出了4D混合并行策略,以训练千亿级稠密参数模型. 近几年,深度学习领域的开发者们对模型效果的追求愈演愈烈,各大榜单纪录不断刷新,而这个现象的背后都有着 " ...
- CPM-2细节发布!10大技术打通大模型「任督二脉」,单卡单机跑「千亿模型」不再是梦...
智源导读:最近两年,预训练模型的参数量以每年 10 倍的速度迅猛增长,然而其计算效率的瓶颈也日渐显现. 例如以单块NVIDIA V100 GPU训练,GPT-1的计算时间是 3 天,到GPT-2 计算 ...
- 唐杰:悟道的雄心,何止是万亿参数模型
作者 | 青暮.陈彩娴 智能是否仅靠大数据.大模型就能实现?这是近年来人工智能学术界非常关注的问题,这个问题不仅仅源自GPT-3等千亿参数模型带给我们的刺激,也继承自深度学习一贯以来的"简单 ...
最新文章
- LTE - PUCCH Format2
- LB负载均衡集群 - NAT
- 解决Windows Installer的错误
- CSS Sprites (CSS精灵)
- 在线图表编辑工具 draw.io 10.6.2 版本发布
- django 学习笔记
- php json追加500错误,在composer.json中添加了一个git地址;composer update 报错
- Docker JFrog Artifactory 7.27.10 maven私服(IDEA 实战篇01) linux
- java的多态怎么理解_JAVA多态的理解
- tomcat查看当前内存
- java 动态给属性赋值_java中为实体对象的动态属性赋值
- 基于mykernel的时间片轮转调度
- css 垂直居中_当面试官问起CSS布局之水平垂直居中时~~
- 在线MAC地址查询和在线随机生成MAC地址
- Javc笔记(三) package和import
- C#使用oledb连接excel执行Insert Into语句出现“操作必须使用一个可更新的查询”的解决办法
- 基于ffmpeg+opencv的h264解码显示功能的实现
- 荒神罪蜀山传 服务器未响应,《DOTA2》荒神罪蜀山传新手攻略
- 第一节课 opencv图像处理,对图片进行叠加处理
- 战神引擎传奇手游源码【诛仙玛法单职业五大陆】