体系结构学习15-cache coherence
1、Cache Coherence
现代处理器的并行代码或线程共享内存,需要保证数据一致性。
从软件、硬件两个角度考虑解决cache一致性。
现代处理器cache一般对程序员透明,ISA一般只提供cache flush命令。如果靠软件解决,对程序员负担太大。
Hardware Based:
- 所有核心共享一个L1cache,但是cache通常需要追平CPU频率,很可能无法完成所有核心的读写请求而且容量也成限制,并且核心与cache的连线会变长导致latency边长,最终使得cache成为瓶颈。
- 采用多个L1cache,保证数据一致性。(下面是Snoopy cache)
Update Protocol:写完后把最新数据推送给所有人更新
优点:适用数据很少更新,多用于读。
缺点:如果只有某个核心需要某个频繁更新,那么广播给所有人十分消耗带宽
Invalid Protocol:写后发送给所有人原数据无效并清除
优点:适用于少部分核心需要频繁更新
缺点:如果就两个核心打乒乓球一样相互更新数据会导致效率低下
2、Cache Coherence Methods
- Snoopy Bus:所有CPU连在同一条总线,但容易发生总线资源争夺
- Directory:数据存储空间切成小块,每一小块分配一个控制器,分布式控制大数据存储空间
3、Snoopy Cache
要求cache有双端口,接受总线和相应CPU的信息
cache block:有状态位
比如简单的两状态valid和invalid,就是VI Protocol,Write-through,No-Write-allocate,但是每次写回内存代价比较大。
采用write-back,三状态,MSI Protocol
Modify:该数据是独有的,且被修改过的 is dirty
Shared:这块没有改过的数据被多个cache读取
Invalid:指示该数据是否可用(为最新值)解决独有数据更新浪费带宽问题,采用四状态,MESI Protocol(intel i7 加入了"forward",cache与cache之间传输)
Exclusive:指示这块数据只有自己独有,is clean
如何确定其他人是否读取数据?
Wire-OR:shared signal
BusWr
BI:invalid ,not need data
BRI:Invalid, need dataMOESI Protocol:加入了一个owner状态,owner负责最终写回拥有的数据,不需要去内存取最新数据
cache to cache transfer
4、Coherence Miss
为了保证cache一致性,而被清除数据的cache增加了miss
- True Sharing Miss:cache block只有一个单元一定是true
- False Sharing Miss:写了2号数据,别人需要0号数据,这两个在同一个cache block,故而别人的cache数据被清除,但是两者并不是读取同一个地址(cache block太大导致无关数据被清除)。不会发生在cache block 只有1个单元。
coherence miss不受cache大小影响,但会随着CPU数量增加而增大
5、Directory Coherence
- Motivation
Snoopy的bus往往是性能瓶颈,如果有n个CPU,就需要支持n倍带宽,并且需要每一个CPU处理其他CPU的所有信息,即处理N^2的信息。 - 解决办法:Directory Protocol:cache和Memory通信不再通过总线连接,而是通过点对点通信(目前高带宽需求的处理器都是点对点)
- NUMA(Non-Uniform Memory Access)访问不同地址空间latency不一样(近的快远的慢)
涉及地址编号形式问题,避免出现热点,使得分配均匀 - Directory Format:Shared,Uncached,Exclusive
对每一个CPU记录状态——Full map 或者limited Pointer - 点对点通信潜在的问题
(1)写请求与读请求的交叉:需要保持内存操作原子性,Atomic
(2)避免产生死锁的情况:多个任务需要同样资源从而互相等待
(分布式系统)
6、Snoopy VS Directory
- Snoopy :简单,latency小;总线带宽成为瓶颈
- Directory:划分小块点对点通信,对带宽无限制;操作与设计复杂增加,Directory需要额外存储空间。
体系结构学习15-cache coherence相关推荐
- MIPS体系结构学习笔记
MIPS体系结构学习笔记 第一章 概述 第二章 MIPS的体系结构 相关寄存器的时序 32个通用寄存器 通用寄存器的命名 32个浮点寄存器 基本地址空间 第三章 协处理器0(cp0):MIPS处理器控 ...
- 面向模式的软件体系结构(卷1-5
面向模式的软件体系结构(卷1-5 [一日养生24法].宋爱莉.插图版.pdf: http://www.t00y.com/file/60331740 [一桶金]--颠覆传统赚钱方式的系统创富法则.艾莫. ...
- SAP BW4 410(数据抽取、信息对象、建模等)学习1-5章
SAP BW4 410学习1-5章 1 Introduction to SAP HANA 1.1 描述SAPHANA的演变和数据布局 1.1.1 Introduction to SAP HANA 1. ...
- Struts的体系结构(学习转发)
http://www.donews.net/tssungeng/archive/2004/06/13/27940.aspx Struts的体系结构 Struts的体系结构 (Struts Framew ...
- A Primer on Memory Consistency and Cache Coherence
前言 现在许多的计算机系统和多核芯片都在硬件层面支持共享内存(shared memory). 在共享内存系统中,每一个处理器核都可以对一个单独的内存地址空间进行读写.对共享内存系统来说,Memory ...
- 学习Guava Cache知识汇总
(一)MapMaker 在软件开发中,Cache缓存技术一直是非常重要的主题,不管我们正在进行任何简单的编程工作,我们总能在编程过程中找到一些缓存机制,即使是你使用一个 Map获取静态的值,它也是缓存 ...
- 为什么程序员需要关心顺序一致性(Sequential Consistency)而不是Cache一致性(Cache Coherence)
本文所讨论的计算机模型是Shared Memory Multiprocessor,即我们现在常见的共享内存的多核CPU.本文适合的对象是想用C++或者Java进行多线程编程的程序员.本文主要包括对Se ...
- Cache Coherence for GPU Architectures
文章目录 摘要 1 Introduction 2 Related Work 3 背景 3.1 Baseline GPU Architecture 摘要 scalable coherence 已被 st ...
- 介绍内存一致性(Memory Consistency)和缓存一致性(Cache Coherence)
为了追求PPA(高性能.低功耗和低成本),许多现代计算机系统和多核(处理器)芯片都支持共享硬件内存.在存在共享内存的存储器系统中,每个处理器都可以读写某个共享地址空间. 在支持共享内存之前最重要的是保 ...
最新文章
- 吴裕雄 python 神经网络——TensorFlow训练神经网络:不使用隐藏层
- Cloudstack部署
- 计算机减法英语,英语加减乘除的表达
- Ignite Compute helloworld-分布式计算
- torch tensor去掉1维_浑身是刺的“维c之王”,有人管它叫“菠萝”,有人管它叫“梨”...
- Java集合框架之Collection实例解析
- MyEclipse从数据库反向生成实体类通过Hibernate的方式----mysql数据库实例
- ShadowMap Sample
- UVM的factory机制
- 软件需求,概要设计,详细设计(文档)怎么做,做什么?
- RocksDB 笔记
- NLP 文本分词 java类方法,及opennlp 示例
- 解决最新小马激活工具导致主页劫持问题
- 将其他图片转换为ico图片
- 题目分析参考贺老师的答案————谁是小偷如何派任务
- AM335x硬件开发使用指南(一)
- 部分ADSL猫的默认密码
- LeetCode——974.和可被K整除的子数组
- 家园守卫战新系统冲入海盗营地漏洞,无限赚钱
- 第二届“强网”拟态防御国际精英挑战赛落幕,29支国内外精英队伍未能突破拟态防御,赛宁网安靶场平台完美支撑BWM新赛制.