经历了几年的高速发展之后,人工智能(简称AI)不再是新鲜的名词,它已经作为一个重要的生产工具,被引入到我们工作和生活的多个领域。但在AI爆发的背后,随之而来的是对AI算力需求的暴增。

据OpenAI的一份报告显示,从2012年到2019年,人工智能训练集增长了30万倍,每3.43个月翻一番,但如果是以摩尔定律的速度,只会有 12 倍的增长。为了满足AI算力的需求,从业人员通过设计专用的AI芯片、重配置硬件和算法创新等多方面入手来达成目标。


AI算力需求增长

然而在此过程中,我们除了看到AI对算力的要求以外,内存带宽也是限制AI芯片发展的另一个关键要素。这就需要从传统的冯诺依曼架构谈起。作为当前芯片的主流架构,冯诺依曼架构的一大特征就是计算和内存分离的。那就意味着每进行一次计算,计算单元都要从内存中读取数据然后计算,再把计算结构存回到内存当中。


经典的冯诺依曼架构

在过往,这个架构的短板并不是很明显,因为处理器和内存的速度都都非常接近。但众所周知的是,在摩尔定律指导下的处理器在过去几十年里发生了翻天覆地的变化,但常用的DRAM方案与之相比,提升幅度不值一提。

再者,在AI时代,数据传输量越来越大。先进的驾驶员辅助系统(ADAS)为例。第3级及更高级别系统的复杂数据处理需要超过200 GB/s的内存带宽。这些高带宽是复杂的AI/ML算法的基本需求,在道路上自驾过程中这些算法需要快速执行大量计算并安全地执行实时决策。在第5级,即完全自主驾驶,车辆能够独立地对交通标志和信号的动态环境作出反应,以及准确地预测汽车、卡车、自行车和行人的移动,将需要巨大的内存带宽。

因此,AI芯片寻找新的内存方案迫在眉睫,其中HBM和GDDR SDRAM(简称GDDR)就成为了行业的选择。


为什么是HBM和GDDR ?

HBM就是High Bandwidth Memory的缩写,也就是高带宽内存,这是一项在2013年10月被JEDEC采纳为业界标准的内存技术。按照AMD的介绍,这种新型的 CPU/GPU 内存芯片(即 “RAM”),就像摩天大厦中的楼层一样可以垂直堆叠。基于这种设计,信息交换的时间将会缩短。这些堆叠的芯片通过称为“中介层 (Interposer)”的超快速互联方式连接至 CPU 或 GPU。将HBM的堆栈插入到中介层中,放置于 CPU 或 GPU 旁边,然后将组装后的模块连接至电路板。

尽管这些 HBM 堆栈没有以物理方式与 CPU 或 GPU 集成,但通过中介层紧凑而快速地连接后,HBM 具备的特性几乎和芯片集成的 RAM 一样。更重要的是,这些独特的设计能给

开发者带来功耗、性能和尺寸等多个方面的优势。

从第一代HBM与2013年面世后,JEDEC又分别在2016年和2018把HBM2和HBM2E纳为行业标准。据了解,在HBM2E规范下,当传输速率上升到每管脚3.6Gbps时,HBM2E可以实现每堆栈461GB/s的内存带宽。此外,HBM2E支持12个DRAM的堆栈,内存容量高达每堆栈24 GB。

具体而言,就是说每一个运行速度高达3.6Gbps的HBM2E堆栈通过1024个数据“线”的接口连接到它的相关处理器。通过命令和地址,线的数量增加到大约1700条。这远远超出了标准PCB所能支持的范围。因此,硅中介层被采用作为连接内存堆栈和处理器的中介。与SoC一样,精细数据走线可以在硅中介层中以蚀刻间隔的方式实现,以获得HBM接口所需数量的数据线数。

得益于其巨大内存带宽的能力,使得连接到一个处理器的四块HBM2E内存堆栈将提供超过1.8 TB/s的带宽。通过3D堆叠内存,可以以极小的空间实现高带宽和高容量需求。进一步,通过保持相对较低的数据传输速率,并使内存靠近处理器,总体系统功率得以维持在较低水位。

根据Rambus的介绍,HBM2E的性能非常出色,所增加的采用和制造成本可以透过节省的电路板空间和电力相互的缓解 。在物理空间日益受限的数据中心环境中,HBM2E紧凑的体系结构提供了切实的好处。它的低功率意味着它的热负荷较低,在这种环境中,冷却成本通常是几个最大的运营成本之一。

正因为如此,HBM2E成为了AI芯片的一个优先选择,这也是英伟达在Tesla A100和谷歌在二代TPU上选择这个内存方案的原因。但如前面所说,因为HBM独特的设计,其复杂性、成本都高于其他方案,这时候,GDDR就发挥了重大的作用。

据了解,图形DDR SDRAM(GDDR SDRAM)最初是20多年前为游戏和显卡市场设计的。在这段时间内,GDDR经历了几次重大变革,最新一代GDDR6的数据传输速率为16Gbps。GDDR6提供了令人印象深刻的带宽、容量、延迟和功率。它将工作电压从1.5V降低到1.35V以获得更高的功率效率,并使GDDR5内存的数据传输速率(16比8 Gbps)和容量(16比8 GB)翻了一番。Rambus已经演示了一个运行速度为18 Gbps的GDDR6接口,显示这种内存架构还有额外的增长空间。

与HBM2E不同,GDDR6 DRAM采用与生产标准DDR式DRAM的大批量制造和组装一样的技术。更具体地说,GDDR6采用传统的方法,通过标准PCB将封装和测试的DRAMs与SoC连接在一起。利用现有的基础架构和流程为系统设计者提供了熟悉度,从而降低了成本和实现的复杂性。

与HBM2E宽而慢的内存接口不同,GDDR6接口窄而快。两个16位宽通道(32条数据线)将GDDR6 PHY连接到相关的SDRAM。GDDR6接口以每针16 Gbps的速度运行,可以提供64 GB/s的带宽。回到我们之前的L3汽车示例,GDDR6内存系统以连接四个DRAM设备为例,带宽可以达到200 GB/s。

采用GDDR6的主要设计挑战也来自于它最强大的特性之一:速度。在较低的电压条件,16 Gbps的信号速度下,保持信号完整性需要大量的专业经验知识。设计人员面临更紧的时序和电压裕度量损失,这些损失来源与影响都在迅速增加。系统的接口行为、封装和电路板需要相互影响,需要采用协同设计方法来保证系统的信号完整性。

总的来说,GDDR6内存的优异性能特性建立久经考验的基础制造过程之上,是人工智能推理的理想内存解决方案。其出色的性价比使其适合在广泛的边缘网络和物联网终端设备上大量采用。


根据Rambus发布的白皮书介绍,他们HBM2E接口完全符合JEDEC JESD235B标准。支持每个数据引脚高达3.6 Gbps的数据传输速率。该接口具有8个独立的通道,每个通道包含128位,总数据宽度为1024位。由此每个堆栈支持的带宽是461GB/s,每个堆栈由2、4、8或12个DRAMs组成。

Rambus有一套非常重要的工具——Lab StaTIon。借助这个工具,Rambus会与客户进行合作,让他们将其HBM2E解决方案直接插入到他们的终端系统当中,来构建一个非常独立的内存子系统。

能在HBM2E IP获得这样的成就,一方面,Rambus的研发投入功不可没;另一方面,他们与SK海力士、AIChip和台积电多方人员的通力合作,也是他们能提供快速服务的原因之一。例如在SK海力士方面,它为Rambus提供的HBM2E内存达到了3.6G的数据传输速率,而在和合作过程中,两者又将HBM2E的速率进一步地推进到了4.0 Gbps;AIchip则为Rambus提供了ASIC的相关解决方案以及产品,帮助其设计了相关中介层以及封装;此外,台积电提供了一个交钥匙的2.5D Cowos封装以及解决方案,来更好地为Rambus打造一个晶圆上的基本架构。

“我们的解决方案适用于人工智能以及机器学习的训练,同时也非常适用于高性能计算系统和5G网络的基础设施建设”,Frank Ferro最后说。

除了面向AI训练的HMB2E IP,Rambus还推出了面向AI推理的GDDR 6产品。

据Rambus的白皮书介绍,公司的GDDR6接口专为性能和功率效率而设计,支持AI/ML和ADAS推理高带宽与低延迟要求。它由一个经共同验证的PHY和数字控制器组成,提供一个完整的GDDR6内存子系统。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250标准,每个引脚支持高达16 Gbps。GDDR6接口支持2个通道,每个通道有16位,总数据宽度为32位。Rambus GDDR6接口每针16 Gbps,提供带宽为64 GB/s。

在“内存墙”的限制下,为了满足AI应用的数据搬运需求,产业界正在探索不同的方法来解决问题。例如英国AI芯片初创企业Graphcore就希望通过分布式内存设计的方法解决这个问题。

HBM(高带宽内存)、GDDR SDRAM(图形双倍速率同步动态随机存储器)相关推荐

  1. 第三代双倍速率同步动态随机存储器(Double-Data-Rate 3 Synchronous Dynamic RAM,DDR3 SDRAM):简介及内容导航

    目录 一.DDR3简介 二.DDR3的各个时钟频率及带宽分析 三.DDR3 IP核(MIG)的使用教程 四.DDR3基础篇--读写测试 五.DDR仿真篇 六.DDR3高级篇--模块复用 针对DDR3进 ...

  2. Nature:将光计算与AI推理整合,实现高速高带宽低功耗AI计算

    来源:机器之心 本文约3200字,建议阅读10分钟 本文将回顾用于人工智能的光学计算的近期研究成果并探讨其潜力和挑战. [ 摘要 ]相比于电子计算,光计算具有高速.高带宽.低功耗的优势,但目前光计算还 ...

  3. GMSL高带宽视频数据接入的方法

    随着汽车智能化的不断提升,特别是高级辅助驾驶系统(ADAS)的普及, 越来越多的车载摄像头和传感器需要与汽车电子控制单元(ECU)进行数据通信, 对车内数据传输的带宽.实时性和稳定性的要求也越来越高, ...

  4. 转:GMSL高带宽数据接入的方法

    作者:Aili-Light | 公众号:艾利光科技 随着汽车智能化的不断提升,特别是高级辅助驾驶系统(ADAS)的普及,越来越多的车载摄像头和传感器需要与汽车电子控制单元(ECU)进行数据通信,对车内 ...

  5. 服务器设置虚拟内存有什么好处,高频率内存有哪些优势?虚拟内存是什么

    为增进大家对内存的认识,本文将为大家介绍高频率内存的优势.此外,小编还将对虚拟内存加以探讨. 我们每天都在同内存打交道,但大家对内存真的了解吗?上篇文章中,我们对服务器内存以及服务器内存技术有所介绍, ...

  6. linux 物理内存用完了_Linux用户空间与内核空间(理解高端内存)

    Linux内核地址映射模型 x86 CPU采用了段页式地址映射模型.进程代码中的地址为逻辑地址,经过段页式地址映射后,才真正访问物理内存. 段页式机制如下图. Linux内核地址空间划分 通常32位L ...

  7. Linux内存管理-高端内存(一)

    高端内存是指物理地址大于 896M 的内存.对于这样的内存,无法在"内核直接映射空间"进行映射. 为什么? 因为"内核直接映射空间"最多只能从 3G 到 4G, ...

  8. Linux内存管理之高端内存映射

    一:引子 我们在前面分析过,在linux内存管理中,内核使用3G->4G的地址空间,总共1G的大小.而且有一部份用来做非连续空间的物理映射(vmalloc).除掉这部份空间之外,只留下896M大 ...

  9. Linux内核高端内存

    Linux内核地址映射模型 x86 CPU采用了段页式地址映射模型.进程代码中的地址为逻辑地址,经过段页式地址映射后,才真正访问物理内存. 段页式机制如下图.   Linux内核地址空间划分 通常32 ...

最新文章

  1. 1:1 人脸比对 开源_Hacktoberfest:我的开源门户
  2. Android逆向--如何调试smali代码?
  3. iOS音频播放(一):概述
  4. mysql百万级性能瓶颈-数据库选型
  5. Angular CLI的安装和使用
  6. C#进阶系列——AOP?AOP!
  7. ezmorph-1.0.6.jar的作用
  8. android软件自动启动软件下载,Android编程实现应用程序开机自启动的方法
  9. 《南溪的目标检测学习笔记》——PyTorch模型搭建模板
  10. 如何查看linux中的ssh端口开启状态
  11. BZOJ5249:[九省联考2018]IIIDX——题解
  12. 【note】软件体系结构(6-10章)
  13. 第十三章:位图(八)
  14. MySQL之数据操作
  15. 12. JavaScript Number 对象
  16. 发达国家“互联网+”面面观
  17. python实现文字转语音播报
  18. Ubuntu代理服务器设置上网
  19. ANDROID webview解决视频无法播放问题
  20. 公司建站域名需要多少钱?

热门文章

  1. 如何判断一家创业公司是否值得加入?
  2. []*T *[]T *[]*T 傻傻分不清楚
  3. 我们该如何全面提高程序的可读性
  4. Java Vue uni-app 三端实现,滑动拼图验证码
  5. windows平台简单的FTP服务器,无需安装
  6. 字节跳动否认完成支付牌照收购,但金融野心一直有
  7. MT6737芯片功能介绍+MT6737芯片资料分享
  8. 学习笔记:星火第一讲-使用Apollo 学习自动驾驶
  9. java 读取 doc_java如何读取doc文件
  10. Python基础模块:图像处理模块@PIL(批量分类处理图片及添加水印)