摘要:盘古的训练以「昇腾AI处理器」为基座,同时借助了「CANN 异构计算架构」,让硬件算力得以充分释放,大大缩短了训练时间!

2021年4月,“华为云盘古大模型”一炮走红AI人工智能领域。

如果你问:明明明明明白白白喜欢他,但他就是不说,白白喜欢谁?

你的同伴可能还要犹豫3秒钟,而盘古却能轻松地回答出:明明!

诸如此类的「中文同词不同义」的快速语义识别也仅仅是它的雕虫小技而已。

领先的语言理解和模型生成能力,这个大网红瞬间被贴上了“最接近人类中文理解能力”、“全球最大中文语言(NLP)预训练模型”各类标签。

标签不是白帖的,在AI领域,大智慧就意味着大模型,他背后的“千亿参数”、“TB 级内存模型”绝对是他成功的法宝!

模型大,意味着数据也大,你想到如何训练出这样大的模型了么?

盘古的训练以「昇腾AI处理器」为基座,同时借助了「CANN 异构计算架构」,让硬件算力得以充分释放,大大缩短了训练时间!

什么是CANN?

以提升用户开发效率和释放昇腾AI处理器极致算力为目标,昇腾CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构。它对上支持业界主流前端框架,向下对用户屏蔽系列化芯片的硬件差异,以丰富的软件栈功能满足用户全场景的人工智能应用诉求。

当前CANN已经发布到3.0的版本,统一编程架构,同时支持推理+训练的端、边、云全量场景,实现三大使能。

使能全场景:通过支持业界主流AI框架,支持14+种主流操作系统,实现一次开发,全场景各种硬件形态和运行环境的灵活部署。

使能极简开发:通过统一编程接口AscendCL(Ascend Computing Language),为开发者屏蔽底层处理器的差异,支持开发者只需要掌握一套API,就可以全面应用于昇腾全系列芯片+推理、训练全场景。

使能极致性能:通过软硬协同优化,亲和昇腾的图编译技术,以及超过1200个高性能算子,来释放昇腾芯片的澎湃算力。

CANN的开放能力:

CANN为开发者提供算子开发、模型开发、应用开发的全流程开发体验,可覆盖全场景应用。

  • 算子开发

    • DSL语言开发接口:提供了一套基于内存的开发接口,处理器上的指令映射和调度是自动实现的。开发者仅需要关注算子的数学逻辑计算,不需要了解硬件细节,即可开发出高性能的算子。根据统计可以满足60%以上算子开发需求。
    • TIK语言开发接口:提供了一套比较完备的基于处理器内部Buffer可见的编程语言,开发者可以自行决定搬进搬出数据量的大小,从而充分发挥芯片的能力,提升开发算子的性能。
  • 模型开发
    • 支持多种模型开发框架MindSpore,TensorFlow, PyTorch, ONNX 等
    • 支持通过标准化的Ascend IR(Intermediate Representation)接口隔离上层框架差异,进行直接构图和模型开发
  • 应用开发
    • 提供一套标准的AscendCL编程接口,提升用户APP编程效率

CANN的硬核技术:

  • 高性能算子库:支持包括TensorFlow、Pytorch、Mindspore、Onnx框架在内1200+算子,开发者直接基于内置算子即可开发模型。
  • 自动融合技术: 支持基于算子、子图、SCOPE多维度的自动融合,支持动态DSL融合,可有效减少计算节点,缩短计算时间,让昇腾AI处理器瞬间加速。

  • 异构部署调度框架:充分利用昇腾芯片的异构执行单元,将不同的计算任务分配给最合适的计算引擎,高效协同异步流水,提升计算任务整体效率。
  • 高效的内存生命周期管理算法:兼顾内存的充分复用以及数据交换的效能,实现资源与效率的均衡。
  • 预置的业界主流模型库:华为昇腾Model Zoo提供100+主流模型的代码以及相应的调优参数example,为开发者提供货架式的参考实现,详细信息参见:https://www.hiascend.com/software/modelzoo
  • 高性能的图下沉执行框架:将所有计算下沉到芯片,减少Host CPU与芯片之间的交互时间,实现高性能的训练和推理。
  • 高性能动态图调度:支持基于异步流水的单算子执行框架,支持灵活的H2D、D2H交互,解决PyTorch等框架下动态图模式的高性能运行问题。
  • 业界领先的智能调优:支持基于强化学习、遗传算法、CostModel等多种智能调优算法,提供算子级或者图级调优选择,为用户提供自动的极致性能调优体验。

CANN的5.0版本会给你带来更多想象,了解更多信息,请访问昇腾社区。

点击关注,第一时间了解华为云新鲜技术~

训练千亿参数模型的法宝,昇腾CANN异构计算架构来了~相关推荐

  1. 北大校友“炼丹”分享:OpenAI如何训练千亿级模型?

    转载自:AI科技评论  |  编译:琰琰 大规模深度神经网络训练仍是一项艰巨的挑战,因为动辄百亿.千亿参数量的语言模型,需要更多的 GPU 内存和时间周期.这篇文章从如何多GPU训练大模型的角度,回顾 ...

  2. 10倍!微软开源深度学习优化库DeepSpeed,可训练1000亿参数模型

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :微软 AI博士笔记系列推荐 ...

  3. 基于昇腾AI异构计算架构CANN的通用目标检测与识别一站式方案初体验

    前言 强大的社会粘性不断催温数字化发展,目标检测与识别作为计算机视觉领域的一项关键技术,应用场景广泛,前景十分广阔,从城市治理.楼宇园区.互联网等领域,延伸至智能家居.金融.医疗影像等更多创新领域.随 ...

  4. 陈丹琦团队提出低内存高效零阶优化器MeZO,单卡A100可训练300亿参数模型

    深度学习自然语言处理 原创 作者:辰宜 今天下午突然发现了一篇陈丹琦大佬的巨作~ 大家一起来简单瞅瞅. 本文旨在介绍一种用于fine-tuning语言模型(LM)的低内存优化器--MeZO,内存减少多 ...

  5. 训练千亿参数大模型,离不开四种GPU并行策略

    作者|Lilian Weng.Greg Brockman 翻译|董文文 AI领域的许多最新进展都围绕大规模神经网络展开,但训练大规模神经网络是一项艰巨的工程和研究挑战,需要协调GPU集群来执行单个同步 ...

  6. 看MindSpore加持下,如何「炼出」首个千亿参数中文预训练语言模型?

    摘要:千亿参数量的中文大规模预训练语言模型时代到来. 本文分享自华为云社区< MindSpore开源框架加持,如何「炼出」首个千亿参数.TB级内存的中文预训练语言模型?>,原文作者:che ...

  7. 飞桨分布式训练又推新品,4D混合并行可训千亿级AI模型

    点击左上方蓝字关注我们 最近,飞桨提出了4D混合并行策略,以训练千亿级稠密参数模型. 近几年,深度学习领域的开发者们对模型效果的追求愈演愈烈,各大榜单纪录不断刷新,而这个现象的背后都有着 " ...

  8. CPM-2细节发布!10大技术打通大模型「任督二脉」,单卡单机跑「千亿模型」不再是梦...

    智源导读:最近两年,预训练模型的参数量以每年 10 倍的速度迅猛增长,然而其计算效率的瓶颈也日渐显现. 例如以单块NVIDIA V100 GPU训练,GPT-1的计算时间是 3 天,到GPT-2 计算 ...

  9. 唐杰:悟道的雄心,何止是万亿参数模型

    作者 | 青暮.陈彩娴 智能是否仅靠大数据.大模型就能实现?这是近年来人工智能学术界非常关注的问题,这个问题不仅仅源自GPT-3等千亿参数模型带给我们的刺激,也继承自深度学习一贯以来的"简单 ...

最新文章

  1. LTE - PUCCH Format2
  2. LB负载均衡集群 - NAT
  3. 解决Windows Installer的错误
  4. CSS Sprites (CSS精灵)
  5. 在线图表编辑工具 draw.io 10.6.2 版本发布
  6. django 学习笔记
  7. php json追加500错误,在composer.json中添加了一个git地址;composer update 报错
  8. Docker JFrog Artifactory 7.27.10 maven私服(IDEA 实战篇01) linux
  9. java的多态怎么理解_JAVA多态的理解
  10. tomcat查看当前内存
  11. java 动态给属性赋值_java中为实体对象的动态属性赋值
  12. 基于mykernel的时间片轮转调度
  13. css 垂直居中_当面试官问起CSS布局之水平垂直居中时~~
  14. 在线MAC地址查询和在线随机生成MAC地址
  15. Javc笔记(三) package和import
  16. C#使用oledb连接excel执行Insert Into语句出现“操作必须使用一个可更新的查询”的解决办法
  17. 基于ffmpeg+opencv的h264解码显示功能的实现
  18. 荒神罪蜀山传 服务器未响应,《DOTA2》荒神罪蜀山传新手攻略
  19. 第一节课 opencv图像处理,对图片进行叠加处理
  20. 战神引擎传奇手游源码【诛仙玛法单职业五大陆】

热门文章

  1. jgGrid扩展 显示查询用时
  2. Markdown完整语法说明
  3. Bootstrap翻页组件
  4. HTML mark元素
  5. 大数据的相关性和因果性
  6. Java小 orm_这么优雅的Java ORM没见过吧!
  7. mysql case默认_MySQL知识整理10.1—存储过程和函数
  8. 钉钉运营商服务器在哪,钉钉应用服务商
  9. HTML5+CSS+JQuery 实现简单的进度条功能
  10. H5的本地保存localStorage、sessionStorage用法总结