2020年6月23日,鲲云科技在深圳举行产品发布会,发布全球首款数据流AI芯片CAISA,定位于高性能AI推理,已完成量产。鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯片利用率上提升了最高11.6倍。第三方测试数据显示仅用1/3的峰值算力,CAISA芯片可以实现英伟达T4最高3.91倍的实测性能。

鲲云科技创始人和CEO牛昕宇博士表示,超越英伟达的,不会是另一款GPU,而鲲云定制数据流技术不依靠更大的芯片面积和制程工艺,通过数据流动控制计算顺序来提升实测性能,为用户提供了更高的算力性价比。

超高芯片利用率,定制数据流芯片架构完成3.0升级

此次发布的CAISA芯片采用鲲云自研的定制数据流芯片架构CAISA 3.0,相较于上一代芯片架构,CAISA 3.0在架构效率和实测性能方面有了大幅的提升,并在算子支持上更加通用,支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。

CAISA3.0在多引擎支持上提供了4倍更高的并行度选择,架构的可拓展性大大提高,在AI芯片内,每一个CAISA都可以同时处理AI工作负载,进一步提升了CAISA架构的性能,在峰值算力提升6倍的同时保持了高达95.4%的芯片利用率,实测性能线性提升。同时新一代CAISA架构对编译器RainBuilder的支持更加友好,软硬件协作进一步优化,在系统级别上为用户提供更好的端到端性能。

CAISA 3.0架构图

CAISA 3.0架构继续保持在数据流技术路线的领先地位,指令集架构采用冯诺依曼计算方式,通过指令执行次序控制计算顺序,并通过分离数据搬运与数据计算提供计算通用性。CAISA架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行方式消除空闲计算单元,并采用动态配置方式保证对于人工智能算法的通用支持,突破指令集技术对于芯片算力的限制。此次升级,CAISA架构解决了数据流架构作为人工智能计算平台的三大核心挑战:

1. 高算力性价比:在保持计算正确前提下,通过不断压缩每个空闲时钟推高芯片实测性能以接近芯片物理极限,让芯片内的每个时钟、每个计算单元都在执行有效计算;

2. 高架构通用性:在保证每个算法在CAISA上运行能够实现高芯片利用率的同时,CAISA 3.0架构通用支持所有主流CNN算法;

3. 高软件易用性:通过专为CAISA定制的编译工具链实现算法端到端自动部署,用户无需底层数据流架构背景知识,简单两步即可实现算法迁移和部署,降低使用门槛。

具体来讲,鲲云CAISA 3.0架构的三大技术突破主要通过以下的技术方式实现:

1. 高算力性价比:时钟级准确的计算

CAISA 3.0架构由数据流来驱动计算过程,无指令操作,可以实现时钟级准确的计算,最大限度的减少硬件计算资源的空闲时间。CAISA 3.0架构通过数据计算与数据流动的重叠,压缩计算资源的每一个空闲时钟;通过算力资源的动态平衡,消除流水线的性能瓶颈;通过数据流的时空映射,最大化复用芯片内的数据流带宽,减少对外部存储带宽的需求。上述设计使CNN算法的计算数据在CAISA 3.0内可以实现不间断的持续运算,最高可实现95.4%的芯片利用率,在同等峰值算力条件下,可获得相对于GPU 3倍以上的实测算力,从而为用户提供更高的算力性价比。

2. 高架构通用性:流水线动态重组

CAISA 3.0架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人工智能算子模块、局部数据流网、局部数据流缓存的分层设计,在数据流配置器控制下,CAISA架构中的数据流连接关系和运行状态都可以被自动化动态配置,从而生成面向不同AI算法的高性能定制化流水线。在保证高性能的前提下,支持用户使用基于CAISA 3.0架构的计算平台实现如目标检测、分类及语义分割等广泛的人工智能算法应用。

3. 高软件易用性:算法端到端自动化部署

RainBuilder架构图

专为CAISA 3.0架构配备的RainBuilder编译工具链支持从算法到芯片的端到端自动化部署,用户和开发者无需了解架构的底层硬件配置,简单两步即可实现算法快速迁移和部署。RainBuilder编译器可自动提取主流AI开发框架(TensorFlow,Caffe,Pytorch,ONNX等)中开发的深度学习算法的网络结构和参数信息,并面向CAISA结构进行优化;工具链中的运行时(Runtime)和驱动(Driver)模块负责硬件管理并为用户提供标准的API接口,运行时可以基于精确的CAISA性能模型,实现算法向CAISA架构的自动化映射,同时提供可以被高级语言直接调用的API接口;最底层的驱动可以实现对用户透明的硬件控制。RainBuilder工具链使用简单,部署方便,通用性强,可以让用户快速和低成本的部署和迁移已有算法到CAISA硬件平台上。

首款量产数据流AI芯片,CAISA带来AI芯片研发新方向

CAISA芯片

作为全球首款采用数据流技术的AI芯片,CAISA搭载了四个CAISA 3.0引擎,具有超过1.6万个MAC(乘累加)单元,峰值性能可达10.9TOPs。该芯片采用28nm工艺,通过PCIe 3.0×4接口与主处理器通信,同时具有双DDR通道,可为每个CAISA引擎提供超过340Gbps的带宽。

CAISA芯片架构图

作为一款面向边缘和云端推理的人工智能芯片,CAISA可实现最高95.4%的芯片利用率,为客户提供更高的算力性价比。CAISA芯片具有良好的通用性,可支持所有常用AI算子,通过数据流网络中算子的不同配置和组合,CAISA芯片可支持绝大多数的CNN算法。针对CAISA芯片,鲲云提供RainBuilder 3.0工具链,可实现推理模型在芯片上的端到端部署,使软件工程师可以方便的完成CAISA芯片在AI应用系统中的集成。

鲲云科技创始人牛昕宇发布全球首款数据流AI芯片

高算力性价比的AI计算平台星空加速卡系列产品发布

星空加速卡系列产品图

发布会上,鲲云科技创始人和CEO牛昕宇博士还发布了基于CAISA芯片的星空系列边缘和数据中心计算平台,X3加速卡和X9加速卡,并公布了由人工智能产业技术联盟(AIIA)测试的包括ResNet-50, YOLO v3等在内的主流深度学习网络的实测性能。

星空X3加速卡发布

星空X3加速卡是搭载单颗CAISA 芯片的数据流架构深度学习推断计算平台,为工业级半高半长单槽规格的PCIe板卡。得益于其轻量化的规格特点,X3加速卡可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等,满足边缘和高性能场景中的AI计算需求。相较于英伟达边缘端旗舰产品Xavier,X3可实现1.48-4.12倍的实测性能提升。

*模型参考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

X3 vs Xavier 芯片利用率对比图

X3 vs Xavier 性能对比图

X3 vs Xavier 延时对比图

星空X9加速卡发布

星空X9加速卡为搭载4颗CAISA 芯片的深度学习推断板卡,峰值性能43.6TOPS,主要满足高性能场景下的AI计算需求。同英伟达旗舰产品T4相对,X9在ResNet-50, YOLO v3等模型上的芯片利用率提升2.84-11.64倍。在实测性能方面,X9在ResNet50可达5240FPS,与T4性能接近,在YOLO v3、UNet Industrial等检测分割网络,实测性能相较T4有1.83-3.91倍性能提升。在达到最优实测性能下,X9处理延时相比于T4降低1.83-32倍。实测性能以及处理延时的大幅领先,让数据流架构为AI芯片的发展提供了提升峰值性能之外的另一条技术路线。

*模型参考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

X9 vs T4 芯片利用率对比图

X9 vs T4 性能对比图

X9 vs T4 延时对比图

鲲云科技通过CAISA数据流架构提高芯片利用率,同样的实测性能,对芯片峰值算力的要求可大幅降低3-10倍,从而降低芯片的制造成本,为客户提供更高的算力性价比。目前星空X3加速卡已经实现量产,星空X9加速卡将于今年8月推出市场。鲲云科技成为国内首家在发布会现场披露Benchmark的AI芯片公司。

对标芯片数据来源:

T4性能数据来源:https://developer.nvidia.com/deep-learning-performance-training-inference#resnet50-latency

Xavier性能数据来源:https://developer.nvidia.com/embedded/jetson-agx-xavier-dl-inference-benchmarks

ResNet50,ResNet152算法网络来源:https://github.com/tensorflow/models/tree/master/research/slim

YOLO算法网络来源:

[官方] https://pjreddie.com/darknet/yolo/

[其他] https://github.com/pushyami/yolov3-caffe/

SSD-ResNet50算法网络来源:https://ngc.nvidia.com/catalog/models/nvidia:ssdtf_fp16

UNet Industrial算法网络来源:https://ngc.nvidia.com/catalog/models/nvidia:unetindtf_fp16

超越英伟达的,不会是另一款GPU!中国公司发布首款数据流AI芯片相关推荐

  1. 超越英伟达的,不会是另一款GPU?这家深圳公司发布全球首款数据流AI芯片

    2020年6月23日,鲲云科技在深圳举行产品发布会,发布全球首款数据流AI芯片CAISA,定位于高性能AI推理,已完成量产. 鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯 ...

  2. 英伟达_如何超越英伟达?

    从AI热潮中率先获益的英伟达,其GPU参数和性能频繁出现在不少AI芯片发布会的对比图中.这是在缺乏AI芯片衡量的标准时,新的AI芯片证明自己实力的不错方式.不过,声称性能超越英伟达GPU的创新AI芯片 ...

  3. 谷歌大动作!TPU超算系统大升级,全面超越英伟达A100

    编|泽南 源|机器之心 性能和效率都超越英伟达 A100,这样的超算我有不止十台. 我们还没有看到能与 ChatGPT 相匹敌的 AI 大模型,但在算力基础上,领先的可能并不是微软和 OpenAI. ...

  4. 老黄投下新核弹:英伟达十年力作图灵架构,新GPU支持光线追踪

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI "买得越多,省得越多." 今天早上,英伟达CEO黄仁勋,在温哥华的SIGGRAPH会议上,又喊出了他的GPU发布宣言,扔 ...

  5. 谷歌这个大杀器要让英伟达慌了,实战评测:TPU相比GPU简直又快又省

    岳排槐 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于大多数搞深度学习的人来说,英伟达GPU之外其实没有更多选择.然而谷歌TPU芯片的出现,有望改变这一现状. 这个大名鼎鼎的AI芯片,即是 ...

  6. 英伟达显示器停止服务器,NVIDIA 451.67版显卡驱动发布:修复23个Bug、拯救144Hz HDMI显示器...

    NVIDIA刚刚发布了GeForce 451.67正式版显卡驱动,照例又是一个Game Ready游戏优化驱动,特别针对<死亡搁浅>(Death Stranding).<地平线:零之 ...

  7. linux系统英伟达显卡刷新率,nVidia多显卡多GPU在Linux下的超频设置

    nVidia的显卡是支持超频的,在Windows下各家都有工具,例如Afterburning之类的工具. 但是在Linux下就没有这样现成的工具了. 不过Coolbits的设置也还是非常简单的. 只需 ...

  8. 芯片巨头三国杀:AI加剧芯片厂商间竞赛,英特尔、英伟达、AMD竞相发力

    随着智能手机和个人电脑销售数量减少,芯片厂商正在竞相开发人工智能产品,以推动业绩增长. 英伟达.英特尔.AMD和一大批初创公司正在研发新的处理器,以开拓人工智能软硬件市场.据IDC公司调查,AI软硬件 ...

  9. AMD全球首发7nm CPU/GPU,一举超越英特尔和英伟达?

    雷锋网消息,继全球首款7nm手机处理器之后,同样基于台积电7nm制程的CPU和GPU产品也正式发布.11月7日,AMD在美国旧金山的Next Horizon会议上发布了全球第一款7nm 代号" ...

最新文章

  1. Invalid character escape '\o'.
  2. 记一次工作中的小BUG
  3. 动态规划套路在最长公共子串、最长公共子序列和01背包问题中的应用
  4. React单页如何规划路由、设计Store、划分模块、按需加载
  5. JQUERY解析XML IE8的兼容问题
  6. 深度学习之图像识别基础篇——神经元与感知机
  7. 数据库冷备份和热备份
  8. 【短语学习】True(False) Positives (Negatives) 的含义和翻译
  9. react navigation传值给上一页面
  10. 高清人脸数据集—FFHQ
  11. 【SpringBoot深入浅出系列】SpringBoot之集成JUnit5进行单元测试
  12. PAT甲级 1097
  13. Maya无法创建新模型解决方案1
  14. 源码:Mybatis的LogFactory生成逻辑
  15. 利用手机app语音控制arduino
  16. [论文翻译]数据集的domian问题:Intramodality Domain Adaptation Using Self Ensembling and Adversarial Training
  17. rrpp协议如何修改_《技术进阶:理解RRPP协议.ppt
  18. windows系统中安装monkey环境
  19. JavaScript—进阶篇
  20. 与【孤尽】老师交流总结

热门文章

  1. Python 之 pip拒绝访问
  2. 92号油的发动机能加97吗?标号越高不代表就越好
  3. JavaScript - 数据类型和变量
  4. Java程序猿的JavaScript学习笔记(12——jQuery-扩展选择器)
  5. Lucene.Net无障碍学习和使用:索引篇
  6. SpringBoot直接访问图片资源
  7. vue代码转换成小程序
  8. 基于web的可定制数据填报平台
  9. Oracle 金融类型获得前一交易日
  10. 李宏毅笔记机器学习(四)——Regression——Demo