文章目录

  • Bufferless Multi-Ring NoC
  • AI-Processor's NoC
  • Experiment
  • 题目:Application Defined On-chip Networks for Heterogeneous Chiplets: An Implementation Perspective
  • 时间:2021
  • 会议:HPCA
  • 研究机构:华为

本篇论文首先认为,一个成功的NoC设计需要在应用、架构和物理实现三个方面上做妥协

A successful NoC design must make trade-off decisions from three options: application, architecture, and physical design, which means that it is impossible to have all three of these aspects optimized at the same time

为什么这么说呢?文中认为专用加速器可以提升应用性能,但需要特定的编程接口,从而影响到架构的可表达性。当然如果能保持冯诺依曼架构和共享内存模型,架构的可表达性是可以保证的,但会有更高的资源开销

However, the shared memory abstraction is still has a significant effect on the expressiveness
In order to maintain the expressiveness of the software and hardware, our architecture development team choose to stick to the shared memory abstraction.

既然要坚持共享内存模型,那么多核结构的cache一致性就非常重要,这就需要AMBA5-CHI协议

本篇论文的主要贡献:

  1. We propose a highly scalable bufferless multi-ring NoC design for a heterogeneous-chiplet based system
  2. We introduce the application-architecture-physical implementation co-design process and design methodology of the bufferless multi-ring NoC system
  3. We show that the NoC design can achieve cache coherency among nearly one hundred cores (in one package) and low latency off-chip memory access in Server-CPU scenario

NoC设计的评价指标:

  • Network Latency
  • Network Bandwidth
  • Network Area Efficiency

本篇论文主要面向的是Server-CPU和AI加速器,那么二者之间有什么区别吗?

  • CPU程序会经常涉及基于指针的数据结构,访存不均匀,更需要低延时的片外访存
  • 神经网络有着更高的算术密度,需要更多的数据复用和更高的访存带宽

本文对NoC的要求:

  • Application:大于15TBps的带宽,跨chiplet保证足够小的延时
  • Architecture:架构足够灵活,任意两个NoC transaction是独立的,无状态的(stateless)
  • Physical Implementation:尽可能的提高distance per cycle,这需要电路尽可能的简单

Bufferless Multi-Ring NoC

优点:
没有缓存,没有虚通道,不需要缓存的分配与回收,同时流控机制简单

Compare to the communication-based flow control mechanism used by the buffered routing scheme, bufferless NoC uses purely local and simple flow control without any need for communication between routers

缺点:

  1. increase average latency because of deflection routing
  2. ufferless method will reduce the available network bandwidth as all in-network flits consume wire fabric resources
  3. Since bufferless NoC can deflect individual flits, flits of a packet can arrive out-of-order and at significantly different points in time at the destination agent
    然而,AMBA5-CHI本就是非阻塞且乱序的协议,本来就需要在每个节点需要buffer,这就对于bufferless NoC比较友好

AI-Processor’s NoC

Traditional mesh-like NoC confines the devices to the intersection of the mesh
The NoC in our AI training processor is a multi-ring based mesh
Communication between AI core and L2 and communication between L2 and HBM are the most significant on-chip traffic flow

在该架构中,L2都不会访问其他的L2,AI core也不会相互访问,所以可以将AI core沿竖直方向的环放,L2和LLC都沿水平的环放,这样的话任意一个路由路径都最多之切一次环,路由只需要X-Y路由或Y-X路由就可以

we put all the AI cores on the vertical rings and the memory-related nodes on the horizontal rings

Experiment

对于Server-CPU,benchmark包括了LMBench, SPECint-2006/2017, SPECpower-ssj-2008,比较对象为Intel-8280/Intel-8180/AMD-7742

其中AMD-7742是64核128线程,采用Zen 2架构;而志强铂金8280有28核

对于AI Processor,作者搭建了周期精确的软件仿真器,根据AI Processor的指令trace作为NoC的输入,benchmark包括了MLPerf Benchmark training cases: ResNet-50, Mask R-CNN, BERT



  • 题目:Bufferless Network-on-Chips With Bridged Multiple Subnetworks for Deflection Reduction and Energy Savings
  • 时间:2019
  • 期刊:TC
  • 研究机构:Xilinx

这篇论文更具体的介绍了Bufferless NoC的具体实现。router没有了buffer处理逻辑就简单了许多,每个flit沿着流水线往前走。但万一有多个flit要走同一个输出端口,那只能有一个flit成功,其他的flit要么送到别的端口(deflection routing),要么就直接丢弃

Whenever multiple flits require the same output port, only one flit (which usually has the highest priority) is granted, with the remaining contending flits either deflected to the unclaimed ports or simply dropped.

这篇论文主要关注deflection routing,当然,deflection会导致一个package的传输时间变得更长(因为绕远了),同时消耗了网络更多的带宽

High deflection also increases the average latency in delivering packets, since many flits then take unproductive extra hops before reaching their destinations
Moreover, those deflected flits consume network bandwidth, possibly interfering with more flits to further amplify the deflection rate and easily causing network saturation

文献阅读(182)Bufferless NoC相关推荐

  1. 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  2. 四位科研牛人介绍的文献阅读经验

     每天保持读至少2-3 篇的文献的习惯.读文献有不同的读法,但最重要的自己总结概括这篇文献到底说了什么,否则就是白读,读的时候好像什么都明白,一合上就什么都不知道,这是读文献的大忌,既浪费时间,最 ...

  3. 最大熵模型(Maximum Entropy Model)文献阅读指南

    最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注.中文分词.句子边界识别.浅层句法分析及文本分类等)都有比较好的应用效果.张乐博士的最大 ...

  4. 条件随机场(Conditional random fields,CRFs)文献阅读指南

    与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注.中文分词.命名实体识别等)都有比较好的应用效果.条 ...

  5. 文献阅读疑问(202010)

    学习笔记,仅供参考 文章目录 文献阅读疑问 Unsupervised Deep Embedding for Clustering Analysis 文献阅读疑问 Unsupervised Deep E ...

  6. 那些文献阅读能力爆表的科研学子,都在偷偷做这件事……

    对于广大科研学子来说,阅读文献这件事可谓是贯穿整个学术生涯,因为文献是了解现在所学专业的领域切入点,且做科研遇到难题时还可以在文献中寻找答案. 以及科研实验完毕后,若是准备发表论文,那么还得再看看文献 ...

  7. 知云文献翻译_工具推荐 | 知云学术翻译,让外文文献阅读不再难

    点击上方蓝字"Edtshare"一起玩耍 想必大家都经历过阅读外文文献的痛苦吧:专有名词不会.嵌套从句不懂.好不容易单词和句子都看懂了,连起来在说啥又一头雾水.笔者曾经深受其苦,所 ...

  8. 文献阅读005【精读】

    Markov Weight Fields for Face Sketch Synthesis 相关知识点:马尔可夫随机场(MRF) 1. Introduction 画像合成方法:MRF(Markov ...

  9. 知云文献翻译打不开_比有道更好用的英文文献阅读翻译神器免费啦

    知云文献翻译软件免费啦!您扫下面二维码就就可以得到,不需转发朋友圈.不配一款神器,科研哪来效率!有了这款神器,科研都变得更简单! 用它直接打开英文pdf文献,随便选中一段话,右侧立即给出翻译,不再需要 ...

最新文章

  1. Java的左移和右移的含义!
  2. 软件测试职业培训中心,软件测试工程师就业班
  3. python 需要多久能够学精通_python入门到精通需要学多久-史上最详细python学习路线-从入门到精通,只需5个月时间...
  4. B站,被扫黄了!B站变P站?
  5. 【C/C++学院】0828-数组与指针/内存分配/数据结构数组接口与封装
  6. python分割压缩_Python读取分割压缩TXT文本文件实例
  7. javascript ajax 脚本跨域调用全解析
  8. android其架构图,Android系统架构图,带你直观了解Android基本架构
  9. 如何下载小程序图片?
  10. 人工智能应用案例——智能客服
  11. java毕业设计——基于java+Java3D的网络三维技术设计与实现(毕业论文+程序源码)——三维技术
  12. linux命令行显卡驱动,Linux下NVIDIA显卡驱动安装方法
  13. 点击子元素却也触发父元素的点击事件
  14. thinkphp的这些扩展插架你都知道吗?
  15. [渗透测试]ATTCK实战 | Vulnstack 红队(一)
  16. python有几级等级考试成绩查询_python查询46级成绩
  17. 基于matlab分析的商业保险案例
  18. c语言---16 关于goto语句
  19. 【软件工程】------软件开发
  20. lbs、agps流程

热门文章

  1. django Email
  2. OSError: [WinError 1455] 页面文件太小,无法完成操作和AttributeError: ‘NoneType‘ object has no attribute ‘_free_wea
  3. 帝云CMS-免费可商用的万能PHP建站程序
  4. 【业务理解】指标异动分析
  5. 特征选择-过滤式选择
  6. Elasticsearch学习--索引快速检索
  7. 扇贝python离线_扇贝自动打卡Python脚本(Python3)
  8. 中小型网络系统总体规划与设计方法(一)
  9. 老公,我们现在无家可归了
  10. 第一期:利用旧手机搭建网盘(家庭nas)