摘要:算力虚拟化技术对消费者而言,可有效降低算力的使用成本,对于设备商或运营商而言,则可极大提升算力资源的利用率,降低设备运营成本。

为什么要做算力虚拟化

近年来,人工智能领域呈井喷式发展,算力就是生产力,以AI集群为基础的人工智能计算中心在国内多点开花,为政府、企业及个人,提供了一种新的城市公共资源,成为了智能世界的“黑土地”。

算力资源共享势必会带来资源分配问题,无论是人工智能计算中心这种大型AI基础设施还是AI计算卡这种小型AI计算资源,都承载着用户多样化的AI算力诉求。

比如,在某些算力要求不高的场景下,AI模型在训练或推理时并不需要占用整张AI计算卡,希望更低的资源配置满足要求,比如1/4切片;再或者,在教学场景,一台AI服务器(可由单张或多张计算卡组成)希望可共享给整个班级使用。

借助虚拟化技术可轻松应对以上问题!

我们将整卡或整机的计算资源虚拟化为多个虚拟计算设备,并在上面部署不同的虚拟机或容器,分别运行AI训练或推理应用服务。

对消费者而言,可有效降低算力的使用成本,对于设备商或运营商而言,则可极大提升算力资源的利用率,降低设备运营成本。

业界常见虚拟化技术

业界常见的虚拟化技术有「基于时间分片」和「基于计算实例隔离」。

举个例子,三胎政策来了,未来几年,妈妈们可能会面临同时应付三个神兽的情况,老大要辅导作业,老二要读绘本,老三要喝奶…先忙谁都有意见,怎么办?

遇事不要慌,坐等天塌是没用的,基于时间分片的虚拟化技术为三胎妈妈提供了友好的解决方案,让每个娃都不会等太久,雨露均沾,不偏不倚:

这实际上是对计算资源从时间层面上划分,与CPU进程调度类似,各任务进程按时间切片占用全部的物理设备资源。

基于计算实例隔离的虚拟化技术,是对计算资源本身的直接划分,正如文章开头的举例,老师在教学时,将一台AI服务器划分成N个虚拟组并做好安全隔离,然后共享给整个班级使用,使得每个学生都能独立使用,互不干扰,实现多个虚拟机实例共享同一硬件资源。

显而易见,两种虚拟化技术均能有效提升算力资源利用率,但并不是天衣无缝。

基于时间分片,无法做到AI任务之间的安全隔离;而基于计算实例分片,在目前市面上支持的切分粒度不够细,不能满足用户更高规格的切分诉求。

而华为提供的AI算力虚拟化技术,支持足够细致的切分粒度,且在各个虚拟设备间可做到足够安全的相互隔离,无论从切分粒度还是安全角度来说,都要更胜一筹!

下面我们就来看看,华为是怎样做到的。

华为AI算力虚拟化技术解读

众所周知,昇腾910是华为推出的一款具有超高算力的AI处理器,它集成了32个达芬奇架构的AI Core计算引擎,可高效执行矩阵、向量计算密集的算子任务,八位整数精度(INT8)下的性能达到640 TOPS,16位浮点数(FP16)下的性能达到320 TFLOPS。

单片昇腾910 AI处理器提供的算力如此之大,为了使其“物尽其用”,必须充分利用好虚拟化技术,将硬件的计算资源利用到极致。

CANN作为AI领域的异构计算架构,不仅能充分做好本职工作——极大程度释放硬件性能,为AI应用提供强大的算力支持,还在最新的5.0版本中,借助“基于AI Core切分的算力虚拟化技术”,最高可支持切分成32个分片,充分提升了硬件的资源利用率。

下图是CANN 5.0的算力虚拟化框架:

基于该框架,可支持虚拟机、容器的单一或混合部署,并能支持不同类型算力单元的划分,实现算力、内存、带宽的灵活切分、隔离。

下表是昇腾910支持的基于AI Core切分的算力虚拟化典型配置:

比如,教学场景下,有人算力诉求小,有人算力诉求大,基于AI Core切分的算力虚拟化技术,能够将一片昇腾910 AI处理器进行灵活切分,以匹配开发者多样化的算力诉求:

算力就是智能时代的粮草,半丝半缕弥足珍贵,正是得益于CANN超小粒度的算力切分机制,让小算力场景下算力分配更加合理,宝贵的计算资源才能得到更加充分的利用。

CANN在实现算力切分的同时,也实现了各个虚拟设备间的安全隔离,包括:

  • 支持虚拟设备间内存隔离:

通过算力配置,实现HBM、DDR等内存的自动切分和隔离。

  • 支持虚拟设备间的数据隔离

通过虚拟设备的标识,实现用户数据按照虚拟设备自动处理和隔离。

  • 支持虚拟设备间的业务故障管理隔离

各个虚拟设备的故障信息反馈给对应的虚拟机或容器。

除了支持对单个昇腾910 AI处理器按照AI Core级别进行算力切分,CANN还支持在搭载多个昇腾910 AI处理器的AI Server或集群系统中,按照昇腾910 AI处理器维度做算力划分。

从技术角度看,CANN 5.0的算力虚拟化方式切分更细致、隔离更安全,给予了行业开发者更多选择;

从性能角度看,虚拟化和非虚拟化场景下性能持平,提升灵活性的同时,也妥善保证了用户体验不打折!

写在最后

CANN 5.0在算力虚拟化方面做出的努力,可有效降低管理成本,提高系统利用率和安全性。

自此,云端个人用户或者小企业客户,只用按需购买资源和算力,即可以最低成本完成AI应用部署。

未来的智能世界里,AI一定是人人皆可得的通用技术,算力也必然是人人皆可用的平民化资源。

借力于CANN 5.0,AI正在逐步成为大家“用得起”的普惠AI。

未来不远,已在路上,你准备好了么?

欢迎登陆昇腾社区网站了解更多信息。

点击关注,第一时间了解华为云新鲜技术~

CANN 5.0黑科技解密 | 算力虚拟化,让AI算力“物尽其用”相关推荐

  1. CANN5.0黑科技解密 | 高并发图片视频处理,为出行保驾,为生活添彩

    摘要:华为推出昇腾AI基础软硬件平台(昇腾AI处理器+异构计算架构CANN),不仅能高效承接各类人工智能计算任务,还可两招解决以上图像处理面临的诸多问题. 四通八达的路网和车水马龙的盛景诠释着城市的繁 ...

  2. CANN5.0黑科技解密 | 别眨眼,缩小隧道,让你的AI模型“身轻如燕”

    摘要:CANN作为释放昇腾硬件算力的关键平台,通过深耕先进的模型压缩技术,聚力打造AMCT模型压缩工具,在保证模型精度前提下,不遗余力地降低模型的存储空间和计算量. 随着深度学习的发展,推理模型巨大的 ...

  3. 美的COLMO冰箱凭借硬核黑科技,荣膺行业唯一AI 营养健康品牌奖项

    美的COLMO冰箱凭借硬核黑科技,荣膺行业唯一AI 营养健康品牌奖项 近日,美的COLMO冰箱在2021年中国电冰箱行业高峰论坛中荣获"AI 营养健康品牌 "奖项,该行业论坛由中国 ...

  4. 黑科技解密!实现socket进程间迁移!

    原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,转载请保留出处. 今天介绍一个可以拿出去吹牛的功能:实现socket句柄在进程之间迁移!为了这篇文章,xjjdog可算下了苦功夫,半夜还在翻 ...

  5. 面对元宇宙算力瓶颈,AI算力专家宁畅开出三大秘方

    文 | 智能相对论 作者 | 沈浪 元宇宙这把火,从2022继续烧到了2023. 目前来看,资本市场对扎克伯格的元宇宙故事依旧抱以希望.2月1日美股收盘,Meta涨2.79%,报收153.12美元/股 ...

  6. 腾讯游戏许振文:王者荣耀实时大数据平台黑科技解密

    ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 许振文 腾讯游戏 增值服务部后台开发组组长 读完需要 20 分钟 速读仅需 5 分钟 从事游戏大数据相关领域 8 年多,负责游戏数据分析平台 i ...

  7. 当黑板遇上黑科技:网易推出校园AI解决方案

    人工智能系统正在变得越来越聪明,它们不仅能下围棋.炒股票,现在还学会了写代码.由微软和剑桥大学研究员一同开发的人工智能系统DeepCoder,完成了人类编程挑战赛所设定的基本挑战. DeepCoder ...

  8. 1024 程序员节专题论坛来袭,权威解读 MindSpore、CANN 5.0 特性和 HCIA MDC 开发者认证...

    "授人以鱼不如授人以渔",一句古话中蕴含的发展真理,我们将其套用到如今炽手可热的 AI 领域之上会发现无比适用.2018 年,华为提出了普惠 AI 的概念,降低 AI 开发门槛,让 ...

  9. CANN 5.0硬核技术抢先看

    摘要:2021年12月,CANN5.0版本也将与大家正式见面,通过软硬件协同优化,该版本将会实现训练性能再翻倍,凭实力展现AI领域的「中国速度」! 本文分享自华为云社区<CANN 5.0硬核技术 ...

最新文章

  1. Android Studio 添加Assets目录
  2. php取掉字符串第一位支付,php怎样去掉字符串中的第一个字符
  3. 海报合成_新年元旦创意合成设计之跨年海报!这组海报我打99分!
  4. 多媒体计算机技术特性,多媒体计算机技术东师20春在线作业2资料
  5. linux卸载cognos,在Linux上实战安装Cognos
  6. GB / ISO / 等保 网络安全相关标准法规
  7. python实战项目分析2—物流
  8. c#之字符串,列表,接口,队列,栈,多态
  9. 利用Matlab App Designer简单设计程序
  10. Boot重抽样获取logistic回归内部验证AUC可信区间
  11. Python数据加密,解密的相关操作(hashlib、hmac、random、base64、pycrypto)
  12. 基于jsp+java+ssm妇女联合会管理系统-计算机毕业设计
  13. php微信支付需要哪些设置,如何申请和配置微信支付接口?
  14. [PowerQuery] PowerQuery各个组件功能
  15. 高数 | 【概念剖析】多元函数的偏导数、方向导数、梯度以及微分之间的关系
  16. 面试百问:如何提高自动化测试脚本稳定性
  17. Android手机基本教程
  18. 02-设计模式 UML类图
  19. 学习笔记(14):零基础掌握 Python 入门到实战-重复利用,事半功倍
  20. 用计算机语言写结婚祝福语,非常有用的结婚祝福语

热门文章

  1. 采用开源技术的好处_采用开源的6个技巧
  2. GlobalSight在翻译社区中与开源大放异彩
  3. 云架构师是做什么的_为什么以及如何成为云架构师
  4. 北京创客空间_世界上最大的创客空间,可增强开放安全性等
  5. editor编辑器为什么头部信息会不见_简单聊一聊一个前端编辑器的性能优化
  6. cent os mysql图形界面_cent os 6.4安装使用mysql
  7. 显示连接失败_技术丨外接显示器障碍的诊断方法
  8. YIi 设置 ajax 验证
  9. wirkshark过滤规则
  10. js设置body高度、宽度为浏览器窗口高度、宽度