2020年6月23日,鲲云科技在深圳举行产品发布会,发布全球首款数据流AI芯片CAISA,定位于高性能AI推理,已完成量产。

鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯片利用率上提升了最高11.6倍。第三方测试数据显示仅用1/3的峰值算力,CAISA芯片可以实现英伟达T4最高3.91倍的实测性能。

鲲云科技创始人和CEO牛昕宇博士表示,超越英伟达的,不会是另一款GPU,而鲲云定制数据流技术不依靠更大的芯片面积和制程工艺,通过数据流动控制计算顺序来提升实测性能,为用户提供了更高的算力性价比。

超高芯片利用率,定制数据流芯片架构完成3.0升级

此次发布的CAISA芯片采用鲲云自研的定制数据流芯片架构CAISA 3.0,相较于上一代芯片架构,CAISA 3.0在架构效率和实测性能方面有了大幅的提升,并在算子支持上更加通用,支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。

CAISA3.0在多引擎支持上提供了4倍更高的并行度选择,架构的可拓展性大大提高,在AI芯片内,每一个CAISA都可以同时处理AI工作负载,进一步提升了CAISA架构的性能,在峰值算力提升6倍的同时保持了高达95.4%的芯片利用率,实测性能线性提升。同时新一代CAISA架构对编译器RainBuilder的支持更加友好,软硬件协作进一步优化,在系统级别上为用户提供更好的端到端性能。

CAISA 3.0架构图

CAISA 3.0架构继续保持在数据流技术路线的领先地位,指令集架构采用冯诺依曼计算方式,通过指令执行次序控制计算顺序,并通过分离数据搬运与数据计算提供计算通用性。CAISA架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行方式消除空闲计算单元,并采用动态配置方式保证对于人工智能算法的通用支持,突破指令集技术对于芯片算力的限制。此次升级,CAISA架构解决了数据流架构作为人工智能计算平台的三大核心挑战:

1. 高算力性价比:在保持计算正确前提下,通过不断压缩每个空闲时钟推高芯片实测性能以接近芯片物理极限,让芯片内的每个时钟、每个计算单元都在执行有效计算;

2. 高架构通用性:在保证每个算法在CAISA上运行能够实现高芯片利用率的同时,CAISA 3.0架构通用支持所有主流CNN算法;

3. 高软件易用性:通过专为CAISA定制的编译工具链实现算法端到端自动部署,用户无需底层数据流架构背景知识,简单两步即可实现算法迁移和部署,降低使用门槛。

具体来讲,鲲云CAISA 3.0架构的三大技术突破主要通过以下的技术方式实现:

1. 高算力性价比:时钟级准确的计算

CAISA 3.0架构由数据流来驱动计算过程,无指令操作,可以实现时钟级准确的计算,最大限度的减少硬件计算资源的空闲时间。CAISA 3.0架构通过数据计算与数据流动的重叠,压缩计算资源的每一个空闲时钟;通过算力资源的动态平衡,消除流水线的性能瓶颈;通过数据流的时空映射,最大化复用芯片内的数据流带宽,减少对外部存储带宽的需求。上述设计使CNN算法的计算数据在CAISA 3.0内可以实现不间断的持续运算,最高可实现95.4%的芯片利用率,在同等峰值算力条件下,可获得相对于GPU 3倍以上的实测算力,从而为用户提供更高的算力性价比。

2. 高架构通用性:流水线动态重组

CAISA 3.0架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人工智能算子模块、局部数据流网、局部数据流缓存的分层设计,在数据流配置器控制下,CAISA架构中的数据流连接关系和运行状态都可以被自动化动态配置,从而生成面向不同AI算法的高性能定制化流水线。在保证高性能的前提下,支持用户使用基于CAISA 3.0架构的计算平台实现如目标检测、分类及语义分割等广泛的人工智能算法应用。

3. 高软件易用性:算法端到端自动化部署

RainBuilder架构图

专为CAISA 3.0架构配备的RainBuilder编译工具链支持从算法到芯片的端到端自动化部署,用户和开发者无需了解架构的底层硬件配置,简单两步即可实现算法快速迁移和部署。RainBuilder编译器可自动提取主流AI开发框架(TensorFlow,Caffe,Pytorch,ONNX等)中开发的深度学习算法的网络结构和参数信息,并面向CAISA结构进行优化;工具链中的运行时(Runtime)和驱动(Driver)模块负责硬件管理并为用户提供标准的API接口,运行时可以基于精确的CAISA性能模型,实现算法向CAISA架构的自动化映射,同时提供可以被高级语言直接调用的API接口;最底层的驱动可以实现对用户透明的硬件控制。RainBuilder工具链使用简单,部署方便,通用性强,可以让用户快速和低成本的部署和迁移已有算法到CAISA硬件平台上。

首款量产数据流AI芯片,CAISA带来AI芯片研发新方向

CAISA芯片

作为全球首款采用数据流技术的AI芯片,CAISA搭载了四个CAISA 3.0引擎,具有超过1.6万个MAC(乘累加)单元,峰值性能可达10.9TOPs。该芯片采用28nm工艺,通过PCIe 3.0×4接口与主处理器通信,同时具有双DDR通道,可为每个CAISA引擎提供超过340Gbps的带宽。

CAISA芯片架构图

作为一款面向边缘和云端推理的人工智能芯片,CAISA可实现最高95.4%的芯片利用率,为客户提供更高的算力性价比。CAISA芯片具有良好的通用性,可支持所有常用AI算子,通过数据流网络中算子的不同配置和组合,CAISA芯片可支持绝大多数的CNN算法。针对CAISA芯片,鲲云提供RainBuilder 3.0工具链,可实现推理模型在芯片上的端到端部署,使软件工程师可以方便的完成CAISA芯片在AI应用系统中的集成。

鲲云科技创始人牛昕宇发布全球首款数据流AI芯片


高算力性价比的AI计算平台星空加速卡系列产品发布

星空加速卡系列产品图

发布会上,鲲云科技创始人和CEO牛昕宇博士还发布了基于CAISA芯片的星空系列边缘和数据中心计算平台,X3加速卡和X9加速卡,并公布了由人工智能产业技术联盟(AIIA)测试的包括ResNet-50, YOLO v3等在内的主流深度学习网络的实测性能。

星空X3加速卡发布

星空X3加速卡是搭载单颗CAISA 芯片的数据流架构深度学习推断计算平台,为工业级半高半长单槽规格的PCIe板卡。得益于其轻量化的规格特点,X3加速卡可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等,满足边缘和高性能场景中的AI计算需求。相较于英伟达边缘端旗舰产品Xavier,X3可实现1.48-4.12倍的实测性能提升。

*模型参考:

https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

X3 vs Xavier 芯片利用率对比图

X3 vs Xavier 性能对比图

X3 vs Xavier 延时对比图

星空X9加速卡发布

星空X9加速卡为搭载4颗CAISA 芯片的深度学习推断板卡,峰值性能43.6TOPS,主要满足高性能场景下的AI计算需求。同英伟达旗舰产品T4相对,X9在ResNet-50, YOLO v3等模型上的芯片利用率提升2.84-11.64倍。在实测性能方面,X9在ResNet50可达5240FPS,与T4性能接近,在YOLO v3、UNet Industrial等检测分割网络,实测性能相较T4有1.83-3.91倍性能提升。在达到最优实测性能下,X9处理延时相比于T4降低1.83-32倍。实测性能以及处理延时的大幅领先,让数据流架构为AI芯片的发展提供了提升峰值性能之外的另一条技术路线。

*模型参考:

https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

X9 vs T4 芯片利用率对比图

X9 vs T4 性能对比图

X9 vs T4 延时对比图

鲲云科技通过CAISA数据流架构提高芯片利用率,同样的实测性能,对芯片峰值算力的要求可大幅降低3-10倍,从而降低芯片的制造成本,为客户提供更高的算力性价比。目前星空X3加速卡已经实现量产,星空X9加速卡将于今年8月推出市场。鲲云科技成为国内首家在发布会现场披露Benchmark的AI芯片公司。

对标芯片数据来源:

T4性能数据来源:https://developer.nvidia.com/deep-learning-performance-training-inference#resnet50-latency

Xavier性能数据来源:https://developer.nvidia.com/embedded/jetson-agx-xavier-dl-inference-benchmarks

ResNet50,ResNet152算法网络来源:

https://github.com/tensorflow/models/tree/master/research/slim

YOLO算法网络来源:

[官方] https://pjreddie.com/darknet/yolo/

[其他] https://github.com/pushyami/yolov3-caffe/

SSD-ResNet50算法网络来源:

https://ngc.nvidia.com/catalog/models/nvidia:ssdtf_fp16

UNet Industrial算法网络来源:

https://ngc.nvidia.com/catalog/models/nvidia:unetindtf_fp16

推荐阅读
  • 图灵奖得主Judea Pearl:从“大数据革命”到“因果革命”

  • Python 玩出花儿了!一文教你用 Python 制作吃豆人游戏 | 附代码

  • 陆奇:疫情下的创业者,最不能缺两大能力

  • 时隔 15 年,苹果的自研 ARM 芯片为何能取代 Intel 处理器?

  • 程序员端午炫富指南~

  • 科普 | 哈希函数的过去、现在与未来

你点的每个“在看”,我都认真当成了AI

超越英伟达的,不会是另一款GPU?这家深圳公司发布全球首款数据流AI芯片相关推荐

  1. 超越英伟达的,不会是另一款GPU!中国公司发布首款数据流AI芯片

    2020年6月23日,鲲云科技在深圳举行产品发布会,发布全球首款数据流AI芯片CAISA,定位于高性能AI推理,已完成量产.鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯片 ...

  2. 英伟达_如何超越英伟达?

    从AI热潮中率先获益的英伟达,其GPU参数和性能频繁出现在不少AI芯片发布会的对比图中.这是在缺乏AI芯片衡量的标准时,新的AI芯片证明自己实力的不错方式.不过,声称性能超越英伟达GPU的创新AI芯片 ...

  3. 谷歌大动作!TPU超算系统大升级,全面超越英伟达A100

    编|泽南 源|机器之心 性能和效率都超越英伟达 A100,这样的超算我有不止十台. 我们还没有看到能与 ChatGPT 相匹敌的 AI 大模型,但在算力基础上,领先的可能并不是微软和 OpenAI. ...

  4. 英伟达十年力作:新一代光线追踪显卡 Quadro RTX及核心架构Turing,可支持AI运算...

    作者 | 琥珀 出品 | AI科技大本营(公众号ID:rgznai100) 北京时间 8 月 14 日清晨,英伟达(NVIDIA)CEO 黄仁勋准时出席在温哥华举办的 SIGGRAPH 2018 计算 ...

  5. 要闻君说:苹果又要新品发布啦;英伟达壕气,狂砸69亿收购Mellanox;谷歌瞄准印度小学生,推出AI学习工具;...

    关注并标星星CSDN云计算 每周三次,打卡即read 更快.更全了解泛云圈精彩news go go go  大家好!偶是要闻君.话说每年的苹果新品发布会都会被列入"熬夜也要看一看" ...

  6. 老黄投下新核弹:英伟达十年力作图灵架构,新GPU支持光线追踪

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI "买得越多,省得越多." 今天早上,英伟达CEO黄仁勋,在温哥华的SIGGRAPH会议上,又喊出了他的GPU发布宣言,扔 ...

  7. 谷歌这个大杀器要让英伟达慌了,实战评测:TPU相比GPU简直又快又省

    岳排槐 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于大多数搞深度学习的人来说,英伟达GPU之外其实没有更多选择.然而谷歌TPU芯片的出现,有望改变这一现状. 这个大名鼎鼎的AI芯片,即是 ...

  8. linux系统英伟达显卡刷新率,nVidia多显卡多GPU在Linux下的超频设置

    nVidia的显卡是支持超频的,在Windows下各家都有工具,例如Afterburning之类的工具. 但是在Linux下就没有这样现成的工具了. 不过Coolbits的设置也还是非常简单的. 只需 ...

  9. 定义为“AI计算公司”,业绩大幅下滑的英伟达新变量在哪?

     关注ITValue,查看企业级市场最新鲜.最具价值的报道! 1999年,英伟达发明了 GPU,20年后今天,GPU让英伟达攀至行业顶峰. 然而,急速膨胀后潜藏的危机,也增加了这家明星公司的焦虑感. ...

最新文章

  1. tkinter安装_mac pyenv 安装tkinter,解决tkinter环境的问题
  2. 全球及中国甲苯二异氰酸酯预聚物行业投资状况与前景建议研究报告2022版
  3. leetcode 564,546
  4. Oracle丢失管理员密码的解决方法
  5. C# DllImport的用法(转)
  6. 一般算术表达式转换成后缀式
  7. Linux系统编程 -- 线程私有属性
  8. sofia-sip下载地址
  9. java字段映射替换框架一对多_java之mybatis之字段映射及多对一
  10. Java打包后运行找不到资源文件问题
  11. Oracle(11g)数据库教程之三:SQL Developer 及 SQL *Plus操作数据库
  12. octobercms mysql_如何在Ubuntu 16.04 LTS上安装OctoberCMS
  13. 怎样制作CHM格式的电子书?
  14. SMAA算法详解 - SMAADetectVerticalCornerPattern
  15. 利用梆梆加固逻辑漏洞取巧脱壳
  16. 推荐一个Mac上的软件卸载工具
  17. PHP集运系统源码 国际物流集运转运系统源码
  18. winrar去掉烦人的广告 亲测有效
  19. 垂直搜索开发:垂直搜索引擎开发全过程[原创]
  20. WS2812B 驱动程序

热门文章

  1. Java架构演进之路
  2. 你的机器学习模型为什么会出错?奉上四大原因解析及五条改进措施
  3. 哪些听起来像段子一样的故事?
  4. mac中用命令行运行mysql
  5. mutt使用小技巧 指定发件人 添加附件
  6. windows上安装zipMongoDB安装包
  7. 2015计算机硕士考研非统考的学校,2015考研计算机专业统考非统考学校统计
  8. Ubuntu终端回收站
  9. fixture详细介绍-作为参数传入,error和failed区别
  10. PAT (Advanced Level) 1132~1135:1132 模拟 1133模拟(易超时!) 1134图 1135红黑树