存算一体,或存内计算,是指将传统冯诺依曼架构中以计算为中心的设计,转变为以数据存储为中心的设计,也就是利用存储器对数据进行运算,从而避免数据搬运产生的“存储墙”和“功耗墙”,极大提高数据的并行度和能量效率。这种架构特别适用于要求大算力、低功耗的终端设备,如可穿戴设备、移动设备、智能家居等。

1. 冯诺依曼架构的局限

首先是性能。

经典的冯诺依曼架构下,数据的存储和计算是分开的,处理器CPU存储器之间通过数据总线进行数据交换。但由于处理器和存储器的内部结构、工艺和封装不同,二者的性能也存在很大的差别。从1980年开始,处理器和存储器的性能差距不断拉大,存储器的访问速度远远跟不上CPU的数据处理速度,这就在存储器和处理器之间行程了一道“存储墙”,严重制约了芯片的整体性能提升。

其次是功耗。

如前所述,由于处理器和存储器的分离,在处理数据的过程中,首先需要将数据从存储器通过总线搬运到处理器,处理完成后,再将数据搬运回存储器进行存储。数据在搬运过程中的能耗是浮点运算的4~1000倍。随着半导体工艺的进步,虽然总体功耗下降,但是数据搬运所占的功耗比越来越大。据研究显示,在7nm时代,访存功耗和通信功耗之和占据芯片总功耗的63%以上。

由于以上存储墙和功耗墙两种瓶颈的存在,传统的冯诺依曼架构已经不再适应以大数据计算为主的AIoT场景,对于新型计算架构的需求因此应运而生。

2. 解决思路

针对新型计算架构的设计,研究者们提出了多种解决方法,大体分为三类:

(1) 高速带宽数据通信,包括光互连、2D/3D堆叠。

高速带宽数据通信主要通过提高通信带宽缓解存储墙问题。光互连技术可以实现数据的高速传输,降低功耗。2.5D/3D堆叠技术是将多个芯片堆叠在一起,通过增大并行宽度或利用串行传输提升通信带宽。

(2) 近存储运算。

近存储计算的基本做法是将数据存储尽量靠近计算单元,从而降低数据搬运的延迟和功耗。目前,近存储运算的架构主要包括多级缓存架构和高密度片上存储。

(3) 存算一体,即存储器本身的算法嵌入。

存算一体或者存内计算的核心思想是,通过对存储器单元本身进行算法嵌入,使得计算可以在存储器单元内完成。

功耗对比

传统片外存储、近存储计算以及存内计算的功耗对比可参考下图:

图片来源:青源 LIVE 第 28 期 | 下一代AI芯片—存内计算的硬核与软着陆_哔哩哔哩_bilibili

3. 存算一体芯片特性

前面我们提到,存算一体的核心思想,是通过在存储单元本身进行算法嵌入,具体来说,主要就是将AI模型的权重数据存储在内存单元中,然后对内存的核心电路进行设计,使得数据流动的过程就是输入数据和权重在模拟域做点乘的过程,相当于实现输入的带权重累加,也就是卷积运算。由于卷积运算是深度学习算法的核心组成单元,因此存算一体非常适合深度学习。该架构彻底消除了访存延迟,并极大降低了功耗,是一种真正意义上的存储和计算的融合。同时,由于计算完全耦合于存储,因此可以开发更细粒度的并行性,获得更高的性能和能效。

图片来源:青源 LIVE 第 28 期 | 下一代AI芯片—存内计算的硬核与软着陆_哔哩哔哩_bilibili

4. 存算一体芯片现状

(1) 技术实现方式

根据存储期间的易失性分类,存算一体技术的实现方式大致可分为两种,

  • 基于易失性、现有工艺成熟的SRAM、DRAM实现;
  • 基于非易失性、新型存储器如相变存储器PCM、阻变存储器RRAM/忆阻器ReRAM、浮栅器件或闪存Flash来实现。

易失性存储器SRAM和DRAM工艺成熟,是目前商业化的主要存储器产品。因此,很多的厂商和研究机构开始基于SRAM和DRAM展开存内计算的研究。但由于目前存储器和处理器的制造工艺不同,尚不能在处理性能和存储容量之间取得一个良好的平衡。

非易失性存储器包括自旋矩磁存储器STTRAM、相变存储器PCM、阻变存储器RRAM等,这些存储器的研究在近十几年也取得了较快的发展,容量不断增大,且具有对计算和存储的天然融合性,研究者们也开始考虑基于非易失性存储器构建存算一体系统的可能性。但由于相应的厂商和工艺尚未成熟,距真正的商用还有一定的距离。

(2) 竞争格局

近几年,国内外涌现了多家存算一体初创企业。

国外比较有名的存算一体初创企业包括Mythic、Syntiant。另外,老牌巨头三星也基于HBM2 DRAM开发了其存算一体技术。

国内的企业更是百花齐放,包括知存科技(基于Flash)、闪亿半导体(基于忆阻器PLRAM)、新忆科技(基于RRAM)、恒烁半导体(基于NOR Flash)、后摩智能(研究方向包括SRAM/MRAM/RRAM)、九天睿芯(基于SRAM)等。另外,还有阿里平头哥(基于DRAM的3D键合堆叠)。

存算一体——后摩尔时代的AI芯片架构相关推荐

  1. 存算一体 – 智能驾驶AI芯片的下一个战场

    交流群 | 进"滑板底盘群"请加微信号:xsh041388 交流群 | 进"域控制器群"请加微信号:ckc1087 备注信息:滑板底盘/域控制器+真实姓名.公司 ...

  2. 关于存算一体芯片技术

    关于存算一体芯片技术 破局"内存墙",存算一体路线分析 随着人工智能应用的普及,云端相关的计算需求也在相应上升.对于基于神经网络的人工智能来说,算力是实现高性能模型的关键资源. 参 ...

  3. 存算一体芯片技术及其最新发展趋势(陈巍谈芯)

    相关推荐 陈巍谈芯:7.2 RRAM模拟存内计算 <先进存算一体芯片设计>节选https://zhuanlan.zhihu.com/p/474261353 陈巍谈芯:存算一体技术是什么?发 ...

  4. 却话文心一言(Chatgpt们),存算一体真能突破AI算力“存储墙”|“能耗墙”|“编译墙”?

    文心一言折戟沉沙 作为国内搜索引擎巨头玩家,百度在中文语料领域拥有大量的积累,在算力基础设施等层面也拥有优势. 但是国产化AI芯片的处境其实很难. 这不是危言耸听,也不是崇洋媚外.这不,百度文心一言初 ...

  5. 云计算-存算一体-EDA-技术杂谈

    云计算-存算一体-EDA-技术杂谈 参考文献链接 https://mp.weixin.qq.com/s/2-MAT6xI2fcXT4LOO00gSQ https://mp.weixin.qq.com/ ...

  6. 灵汐科技:类脑计算芯片——脑科学研究与后摩尔时代算力突破的新起点

    注:本文转载自镁客网公众号 "只要大脑的奥秘尚未大白于天下,宇宙将仍是个谜." --Santiago Ramón y Cajal (1906年诺贝尔生理学或医学奖获得者) 近百年来 ...

  7. 【调研】国内芯片公司对于存算一体芯片的相关调研

    目录 理论研究 清华大学 Fully hardware-implemented memristor convolutional neural network 落地实践 后摩智能 苹芯科技 亿铸科技 知 ...

  8. 全球存算一体技术研究及量产情况最新进展(收录于存算一体芯片赛道投资融资分析)

    编者注: 随着技术研发的推进,存算一体技术逐渐由学术研究进入到产品研发阶段. 在存算一体赛道上,各家有各自不同的产品路线和存储器单元选择. 有的坚持走核心技术自研路线,有的则采纳国外先进IP核心. 需 ...

  9. 人工智能的另一方向:基于忆阻器的存算一体技术

    2020-05-06 22:10:35 作者 | 刘千惠.邢东 编辑 | 蒋宝尚 过去的十年以深度神经网络为代表的人工智能技术深刻影响了人类社会.但深度神经网络的发展已经进入瓶颈期,我们仍处于弱人工智 ...

  10. cnn 准确率无法提升_清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片...

    传统计算架构中计算与存储在不同电路单元中完成,造成大量数据搬运功耗增加和额外延迟,被认为是冯·诺依曼计算架构的核心瓶颈. 人类的大脑却并非如此,而是直接在记忆体里计算.被认为具有「存算一体」潜力的忆阻 ...

最新文章

  1. Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”
  2. table row设置cell的html,css中display设置为table、table-row、table-cell后的作用及其注意点...
  3. CF1406E:Deleting Numbers(构造、根号分块)
  4. HTML 引用Css样式的四种方式
  5. 去除input填充颜色
  6. 打印pdf文件 vfp_新技能,如何将多份pdf电子发票文件合成一份文档打印
  7. pci系列微型计算机,PCI系列586/60微型计算机,其中PCI是()。
  8. Pacemaker 安装与使用
  9. 第7月第25天 xcode bundle calayer动画
  10. 《第一本无人驾驶技术书》扫描版PDF分享
  11. 知识图谱系列(一):如何构建一个简单的知识图谱
  12. javaweb小说阅读网站源码
  13. Python微信自动回复脚本
  14. Qt发布版权问题,是否需要公开源码?开源版与商业版的区别?
  15. 共享单车的扫码解锁原理是什么?2222
  16. Sqlite3内存数据库
  17. 频点、带宽、FFT点数、采样率的关系
  18. NodeJS 运行环境
  19. RNA-seq 详细教程:假设检验和多重检验(8)
  20. 学习Python处理Excel 难度1级别 多表合并、数据透视表、拆分合并单元格并获得一维表

热门文章

  1. 51单片机c语言延时一秒,单片机C语言的延时
  2. 图的遍历之DSF深度优先算法6.2.1(网络整理)
  3. CAD - 多段线、矩形、修订云线、样条曲线
  4. 以太网帧分析与IP报文结构分析(二)
  5. ZigBee-CC2530单片机 - 4路硬件定时器PWM输出
  6. 电气专业标准规范大全html,电气专业规范大全
  7. 元宇宙的时代来不及解释了快上车
  8. 苹果谷歌微软薪酬大揭秘,最高320万元!
  9. acer软件保护卡怎么解除_Acer和Founder软件保护卡驱动卸载方法
  10. 中国教育行业市场行情动态及投资潜力研究报告(2022-2028年)