清华大数据软件团队官方微信公众号来源:机器之心
本文约1700字,建议阅读5分钟
人脑的特性就是存算一体,神经元在处理任务时具有极高的并行度,并且功耗极低。

近期,阿里巴巴达摩院宣布成功研发新型存算一体架构芯片。

据达摩院介绍,该芯片是全球首款基于 DRAM 的 3D 键合堆叠存算一体 AI 芯片,可突破冯 · 诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定 AI 场景中,该芯片性能提升 10 倍以上,能效比提升高达 300 倍。

从诞生之日起,计算机系统就是在冯 · 诺依曼架构下运行。在经典架构中,计算与内存是分离的,计算单元从内存中读取数据,计算完成后再存回内存。然而,随着人工智能等对性能要求极高的场景爆发,这一技术架构的短板逐渐显露,如功耗墙、性能墙、内存墙的问题。

AI 模型的算力需求每两年提升 750 倍,而在同样的时间内芯片的峰值算力只有 3 倍左右的提升,中间存在高达 20 倍的差距。目前我们采用的算法还只能是增大并行规模和运行时长。

相比之下,内存的性能提升速度要比芯片算力更慢,而且我们还不能简单通过增加内存系统节点的方法来解决需求,如果我们使用过多内存的话,通信成本将会出现指数级增加。

应用正在对内存系统提出严苛的要求。数据显示,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的 200 倍左右,真正用于计算的能耗和时间其实占比很低。

存算一体芯片是解决这一问题的有效途径,它类似于人脑,将数据存储单元和计算单元融合为一体,大幅减少数据搬运,从而极大提高计算并行度和能效。

这一技术早在 90 年代就被提出,但受限于技术的复杂度、高昂的设计成本,以及缺少应用场景,过去几十年业界对存算一体芯片的研究进展不断,但没有出现大规模商用化的技术。随着 AI 场景的爆发,业界迫切需要该技术来解决算力瓶颈,达摩院希望通过自研创新技术解决业界难题。

实现存算一体有三种技术路线:

  1. 近存储计算(Processing Near Memory):计算操作由位于存储芯片外部的独立计算芯片完成。

  2. 内存储计算(Processing In Memory):计算操作由位于存储芯片内部的独立计算单元完成,存储单元和计算单元相互独立存在。

  3. 内存执行计算(Processing With Memory):存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。

其中,近存计算通过将计算资源和存储资源距离拉近,实现对能效和性能的大幅度提升,被认为是现阶段能解决内存墙问题的最佳途径。达摩院本次也是沿着这一方向进行突破。

达摩院计算技术实验室自 2019 年成立以来,一直在尝试使用各种方法解决内存墙瓶颈问题。

此次,达摩院研发的芯片首次采用混合键合(Hybrid Bonding)的 3D 堆叠技术——将计算芯片和存储芯片 face-to-face 地用特定金属材质和工艺进行互联。最终的测试芯片显示,这种存算技术和架构的优势明显,能通过拉近存储单元与计算单元的距离增加带宽,降低数据搬运的代价,缓解由于数据搬运产生的瓶颈,而且与数据中心的推荐系统对于带宽 / 内存的需求完美匹配。

在今年 10 月 20 日的云栖大会上,平头哥半导体研究科学家牛迪民对存算一体技术研究进行了介绍。

在设计方面,该芯片内存单元采用异质集成嵌入式 DRAM,拥有超大内存容量和带宽优势,相比传统 SRAM 获得了数量级上的提升,片上内存带宽可高达 37.5GB/s/mm2。

计算芯片方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行「端到端」加速,包括匹配、粗排序、神经网络计算、细排序等任务。这种近存架构也有效解决了带宽受限的问题,最终内存、算法以及计算模块完美融合,大幅提升带宽的同时还实现了超低功耗,展示了近存计算在数据中心场景的潜力。

在阿里自身推荐系统任务的测试中,存算一体芯片已经展示了先进性。

该芯片的研究成果已被即将在明年 2 月举行的 IEEE 国际固态电路顶级会议 ISSCC 2022 收录。

达摩院在存算一体架构方向上已拥有大量成果,在 ISCA、MICRO、HPCA 等顶级计算机体系结构会议上发表多篇论文。

「我们认为,存算一体的未来基于存内计算的架构,它会是通向通用人工智能道路上不可或缺的关键技术,」牛迪民说道。

达摩院表示,存算一体芯片在海量数据计算场景中拥有天然的优势,在终端、边缘端以及云端都有广阔的应用前景。例如 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景中,存算一体芯片都可以发挥高带宽、低功耗的优势。从长远来看,存算一体技术还将成为类脑计算的关键技术。

目前,整个行业对存算一体芯片技术的研究依旧处于探索阶段,在工艺成熟度、典型应用、生态系统等方面仍不成熟,达摩院希望逐步攻克技术难题,基于三维堆叠的近存芯片,通过拉近存储单元与计算单元的距离、增加带宽,来降低数据搬运的代价,缓解由于数据搬运产生的瓶颈。

参考内容:

http://submissions.mirasmart.com/ISSCC2022/PDF/ISSCC2022AdvanceProgram.pdf

https://yunqi.aliyun.com/2021/agenda/session126?spm=5176.23948577a2c4e.J_6988780170.27.37a23798jiwZ4z

编辑:于腾凯

性能提升10倍以上:阿里达摩院成功研发新型存算一体芯片相关推荐

  1. 八年技术加持,性能提升10倍,阿里云HBase 2.0首发商用

    摘要: 早在2010年开始,阿里巴巴集团开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储,HBase在几代阿里专家的不懈努力下,已经表现得运行更稳定.性能更高效 ...

  2. 重磅官宣:Nacos2.0性能提升10倍

    简介:​Nacos2.0 作为一个跨代版本,彻底解决了 Nacos1.X 的性能问题,将性能提升了 10 倍. 作者:席翁 继 Nacos 1.0 发布以来,Nacos 迅速被成千上万家企业采用,并构 ...

  3. 重磅官宣:Nacos2.0发布,性能提升10倍

    简介: ​Nacos2.0 作为一个跨代版本,彻底解决了 Nacos1.X 的性能问题,将性能提升了 10 倍. 作者:席翁 继 Nacos 1.0 发布以来,Nacos 迅速被成千上万家企业采用,并 ...

  4. SQLite性能提升10倍的Web数据库

    作者 | James Long 译者 | 弯月 出品 | CSDN(ID:CSDNnews) 最近我开发了一款名为absurd-sql的SQLite后端.在这款工具的帮助下,你无需将整个数据库加载到内 ...

  5. 天下武功唯快不破:TiDB 在线 DDL 性能提升 10 倍

    作者: TiDB社区小助手 原文来源: https://tidb.net/blog/4f85e64a 导读 随着业务规模和单表容量的增大,DDL 变更耗时越来越长,给 DBA.研发.业务同学带来了越来 ...

  6. Web 应用性能提升 10 倍的 10 个建议

    Web 应用性能提升 10 倍的 10 个建议 提升 Web 应用的性能变得越来越重要.线上经济活动的份额持续增长,当前发达世界中 5 % 的经济发生在互联网上(查看下面资源的统计信息). 我们现在所 ...

  7. 数十名工程师作战5天,阿里达摩院连夜研发智能疫情机器人

    作者 | Just 出品 | AI科技大本营(ID:rgznai100) 新型肺炎疫情防控战在各大互联网科技公司拉响,阿里.百度等公司陆续对外提供相应技术和产品. 当前,疫情当前防控一线人员紧缺,多地 ...

  8. 数十名工程师作战 5 天,阿里达摩院连夜研发智能疫情机器人

    作者 | Just 出品 | AI科技大本营(ID:rgznai100) 新型肺炎疫情防控战在各大互联网科技公司拉响,阿里.百度等公司陆续对外提供相应技术和产品. 当前,疫情当前防控一线人员紧缺,多地 ...

  9. 阿里达摩院已经研发出第一个可控的量子比特

    向大家再报告一个重大技术进展!阿里达摩院已经研发出第一个可控的量子比特,该比特的设计.制备和测量全部都是由阿里达摩院量子实验室自主完成! 这个发现距离达摩院量子硬件实验室组建不到一年时间,是达摩院自研 ...

最新文章

  1. 操作系统期末复习重点题型归纳
  2. MySQL事物系列:1:事物简介
  3. 创建字符设备的三种方法
  4. cmake 静态编译 简介
  5. java 越来越慢_浅析Java语言慢的原因
  6. python中if brthon环境安装包_Ant、Gradle、Python三种打包方式的介绍
  7. 数据库执行计划慢导致I/O 慢
  8. iOS设备唯一标识(可以用版)
  9. 指向二维数组的指针测试
  10. 【php数组函数序列】之sort() - 对数组的元素值进行升序排序
  11. 高阶函数-参数与返回值
  12. SIT测试 和 UAT测试
  13. 仿微信导航栏滑动门练习
  14. python绘制缓和曲线_CAD里面如何绘制缓和曲线
  15. 和cesuim类似的三维GIS平台_绿城南宁,火红的三维GIS
  16. html圆角输入框内放大镜,如何用CSS制作一个圆形放大镜
  17. matlab功率放大器,基于MATLAB的C类功率放大器设计
  18. latex 参考文献没有显示_LaTeX 中的参考文献
  19. LOJ6070 基因 分块+回文自动机
  20. 单核性能强的服务器cpu,Cpu单核性能强和多核性能强都有什么用?

热门文章

  1. 华为认证之HCIP-Video Conference
  2. 2022-12-15 c++总结
  3. node npm命令
  4. Android Paint set方法详解
  5. 中医名词看不懂?用PaddleNLP做一个中医“百科全书”
  6. Visio 公式编辑技巧
  7. 从配置Druid,学习@ConfigurationProperties注解方法
  8. 协议转换器(网关实现)
  9. 深聊全链路压测之:第二十讲 | 如何落地日志隔离方案。
  10. 解决M4以上版本每次重启生成 SpringAutoDeployment 记录的问题