允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI

2021年6月14日~6月17日,第48届国际计算机体系结构大会(ISCA)通过线上模式顺利召开。清华大学魏少军刘雷波教授团队作了题为“ABC-DIMM: Alleviating the Bottleneck of Communication in DIMM-based Near Memory Processing with Inter-DIMM Broadcast”的学术报告。

该报告针对DIMM(双列直插式存储模块)近存计算架构的通信瓶颈问题,提出了基于DIMM间广播技术的通信优化方法。该方法充分利用了内存总线广播的可扩展性以及广播机制的广泛适用性,为DIMM近存计算的通信优化提供了强有力的新工具。

报告人孙伟艺是论文第一作者(如图1所示),目前正在清华大学集成电路学院攻读博士学位。论文通讯作者是刘雷波教授,主要合作者还有李兆石、尹首一等。

 图1 孙伟艺同学报告论文的主要工作

当前,随着数据密集型应用的广泛部署,传统主存系统已难以应对日益增长的容量和带宽需求。为应对这一挑战,诸多近存计算架构被相继提出,其中基于DIMM的近存计算架构是公认最具潜力的架构之一(如图2所示)。

该架构把计算逻辑集成到DIMM的缓存芯片上,通过让内存通道内多个DIMM并行访存和计算,实现较高的总访存带宽,从而以较低的设计与生产代价获得较高的性能提升潜力。然而,DIMM近存计算系统的性能提升依赖于DIMM数量的增加,但现有DIMM间基于内存总线的点对点通信机制却可能严重制约系统性能相对于DIMM数量的可扩展性。

具体来说,当一个内存通道内DIMM数量增加时,每个DIMM分配到的平均点对点通信带宽迅速减小,对于许多重要的数据密集型应用,各个DIMM和CPU之间的通信主导了程序的运行时间,极大限制了系统的整体性能。

 图2 基于DIMM的近存计算架构

针对该问题,魏少军、刘雷波团队提出了DIMM间广播技术。

从硬件角度来看,总线系统在物理层面上天然支持广播,且主存总线的有效广播带宽随着DIMM数量的增加而自然扩展。而从软件角度来看,大量数据密集型应用都能以“广播主导”的方式实现。

基于上述想法,团队设计了ABC-DIMM系统,通过在主存中实现并利用“DIMM间广播”来消除DIMM近存计算架构中的通信瓶颈。该系统由三部分构成。

首先,团队设计了指导程序员以广播主导方式实现各类应用的“广播-计算”编程框架,从而让软件能够充分利用“DIMM间广播”来优化通信。如图3(a)所示,它通过分割输出来划分任务,而任务间的通信则由输入数据的广播所主导。

其次,团队提供了“内存通道内”和“内存通道间”的完整“DIMM间广播”机制,如图3(b)(c)所示。利用这些机制,“广播-计算”框架在多内存通道下的通信可以得到高效的实现,如图3(d)所示。

最后,团队为“DIMM间广播”机制提供了全栈式的硬件和API设计。为使系统实现尽可能地简单和低廉,团队将设计开销和范围成功控制在了DIMM缓存芯片以及CPU的内存控制器之内。具体而言,通过在缓存芯片中加入指令翻译模块,“DIMM间广播”能够在不更改DRAM芯片的前提下以新DDR指令的形式融入主存系统中。此外,通过对内存控制器的有限修改以及相应的API设计,“DIMM间广播”能够在不更改ISA的前提下被软件有效使用。

模拟评估显示,ABC-DIMM的平均性能分别达到了两个主流基线近存系统性能的2.50倍和2.93倍。

过去10余年,魏少军、刘雷波教授团队在软件定义芯片领域取得了多项重要技术突破,关键技术在多项国家重大工程中得到批量应用,曾获国家技术发明二等奖、教育部技术发明一等奖、电子学会技术发明一等奖、中国发明专利金奖、世界互联网大会15项世界互联网领先科技成果等。

 图3(a)“广播-计算”编程框架(b)内存通道内的广播机制

(c)内存通道间的广播机制(d)多内存通道下“广播-计算”框架通信部分的多核实现

关于ISCA

ISCA(International Symposium on Computer Architecture,国际计算机体系结构大会)是提出或发现计算机体系结构新思想、新方法和新成果的重要国际会议,被誉为计算机体系结构领域最权威的会议之一,与MICRO、HPCA 并称为体系结构三大顶会。超标量架构、多级缓存、同步多线程和缓存一致性等都在ISCA上首次被提出。自1973年以来,ISCA已成功举办48届。

克服DIMM近存计算系统的通信瓶颈,清华软件定义芯片团队提出DIMM间广播技术 | ISCA 2021...相关推荐

  1. 深度学习分布式策略优化、显存优化、通信优化、编译优化综述

    综述 因为我个人最近在从事可能是AI领域对性能挑战最大的方向,自动驾驶领域,所以对整个深度学习训练的优化尤为关注,最近一直在学习相关内容,谨以此篇文章做一个总结. 我一直很看好深度学习训练优化这个方向 ...

  2. 清华“天机芯”团队再发重磅研究!以全新类脑计算系统实现通用人工智能

    关注ITValue,看企业级最新鲜.最价值报道! 10月15日,清华大学计算机系张悠慧团队和精仪系施路平团队与合作者发表一项最新类脑计算体系结构的突破性研究成果,首次提出"类脑计算完备性&q ...

  3. 高并发编程-线程通信_使用wait和notify进行线程间的通信2_多生产者多消费者导致程序假死原因分析

    文章目录 概述 jstack或者可视化工具检测是否死锁(没有) 原因分析 概述 高并发编程-线程通信_使用wait和notify进行线程间的通信 - 遗留问题 我们看到了 应用卡住了 .... 怀疑是 ...

  4. 解决内存瓶颈和计算负载问题,韩松团队提出 MCUNetV2

    作者丨happy 编辑丨极市平台 论文链接:arXiv:2110.15352 Slides链接:-https://hanlab.mit.edu/projects/tinyml/mcunet/asset ...

  5. 【无线串口模块快速选型指南】通信频点、芯片、通信距离、功率灵敏度、电流 空中速率

    目录 简介 串口模块的选型要点 01 通信频点 02 芯片方案 03 通信距离 04 发射功率.接收灵敏度 发射功率 接收灵敏度 05 发射电流.接收电流.休眠电流 06  空中速率 07 天线接口形 ...

  6. linux系统线程通信的几种方式,Linux进程间通信-线程间通信

    Linux作为一种新兴的操作系统,几乎支持所有的Unix下常用的进程间通信方法:管道.消息队列.共享内存.信号量.套接口. 1.管道 管道( pipe ):管道是一种半双工的通信方式,数据只能单向流动 ...

  7. 老铁是要塞里最出名的铁匠大师,小铁是老铁的儿子,老铁希望小铁能传承他的衣钵为要塞的骑士们锻造护甲。经近一段时间的学习,小铁逐渐掌握了打铁的技术,但是他很快发现,每一天手臂的力量总是不如前一天

    老铁是要塞里最出名的铁匠大师,小铁是老铁的儿子,老铁希望小铁能传承他的衣钵为要塞的骑士们锻造护甲.经近一段时间的学习,小铁逐渐掌握了打铁的技术,但是他很快发现,每一天手臂 的力量总是不如前一天,粗略估 ...

  8. 《炬丰科技-半导体工艺》利用microLED显示技术缓解芯片间通信瓶颈

    书籍:<炬丰科技-半导体工艺> 文章:自选择性化学镀 编号:JFKJ-21-1016 作者:炬丰科技 基于氮化镓的微透镜显示器产生的高速光发射器可以以更高的密度传输数据比铜更低的功率,带来 ...

  9. 存内计算能否成为下一代AI芯片的关键

    来源:半导体行业观察 随着人工智能的落地和大规模应用,AI芯片也成为了常见的芯片品类.AI芯片相比传统芯片来说,主要的竞争优势就在于高算力和高能效比.高算力是指能够比传统芯片更快地完成AI计算,而高能 ...

最新文章

  1. 拯救莫莉斯[GDOI2014]
  2. Java学习笔记20
  3. 在Linux下安装配置phpMyAdmin步骤
  4. 湫湫系列故事——消灭兔子(优先队列)
  5. 结构化机器学习项目 —— 1.1 为什么是ML策略
  6. XP SP3远程桌面无法连接Windows Server 2008/Vista
  7. HTML5编写船上航行,单体半滑行穿浪船船型与静水航行性能
  8. Eclipse 中 去掉 行末端(尾部) 的 空格。(需要「AnyEdit」插件)
  9. 为什么每天扣我50无忧币?
  10. Java实现手机号码、邮箱账号加密
  11. python 视频 特效,Python实现高级电影特效
  12. 汇编基础2:看懂汇编
  13. WIN7计算机如何清除碎片文件,win7怎么清理磁盘碎片 win7磁盘碎片整理打不开怎么办...
  14. 如何用美剧真正提升你的英语水平?
  15. 计算机网络实验(三个部分--验证性、Wireshark、CPT)
  16. 宏睿达认证计费管理系统(支持微信公众号)使用说明,爱快路由认证计费系统
  17. sin傅里叶变换公式_全面解析傅立叶变换(非常详细)
  18. qq空间网页设计_网页设计中的负空间
  19. FUTEX_SWAP补丁分析-SwitchTo 如何大幅度提升切换性能?
  20. 统信UOS系统Redis-5.0.5安装包方式部署

热门文章

  1. 如何检查文件是否是python中的目录或常规文件? [重复]
  2. 如何在R中正确使用列表?
  3. 表格单元格中的CSS文本溢出?
  4. Eclipse Android插件中的“调试证书已过期”错误
  5. supervisor守护进程的安装配置使用
  6. 【重大更新】DevExpress v17.1新版亮点(DevExtreme HTML5/JS篇)
  7. App.Config 和 WebConfig 特殊字符的转义码对应关系
  8. IT人的学习方法论-续集 关于英语的学习
  9. 2012-12-21
  10. ios 设计模式 MVC ,MVVM