计算机组成

7 流水线处理器

7.3 超标量流水线

超标量流水线在现代的处理器当中得到了广泛的应用,也就是这种技术给我们带来了出色的处理器性能。那究竟什么才是超标量流水线,它又是如何工作的呢?我们这一节将一起探讨这个问题。

这个是我们之前已经构建好的一条流水线,但是如果我们觉得它的吞吐率还不够高。其中一个改进的方向就是加深流水线,而与之相对另一个改进的方向就是拓宽流水线。而拓宽流水线的这个方案我们就称为超标量。在现在通常来说超标量的结构是只有两条或者有两条以上可以并行工作的流水线,那好就这个厨房的例子,现在为了满足更多客人的需求,我们就需要把这条做菜的流水线进行拓宽。我们从左往右来看首先我把这个洗菜的池子扩大一倍,这样就可以同时洗两道菜的原料了。那与之相匹配的后面的各个环节都得加倍,这样我们就有了两条可以并行工作的流水线,这就是一条超标量流水线。在处理器设计当中我们也经常简称为超标量。那么与超标量流水线相对,以前的单条流水线就可以被称为标量流水线,那采用了超标量结构的处理器,我们也常称之为超标量处理器。

那么就结合这个例子简单的来看一看超标量流水线是如何工作的。既然我们这个洗菜的池子扩大了一倍,那么同时就可以进行两道菜的操作,那么当一分钟过去之后。

洗菜这个环节就会将这两份菜的原料分别送到切菜1这个环节的两位操作人员手中,而与此同时第三道菜和第四道菜则会进入洗菜环节。

这样在每一个环节都有两道菜菜在同时的并行向前。那到了五分钟的时候就可以同时完成两道菜。而对于处理器,这也常被称为双发射的结构。那如果照着这个方式再扩展一条流水线就变成三发射,再扩大一条就会变成四发射,这就是超标量流水线的基本工作原理。

那我们再来看一些实际的例子。奔腾是第一款采用超标量技术的x86CPU。这就是奔腾的流水线结构,它是一个双发射的五级流水线,这两条流水线分别被命名为U流水和V流水。它们共用取指和译码的部件,但是有自己独立的地址生成逻辑,ALU 以及数据高速缓存的接口。那在一个时钟周期内可以同时发送两条指令,分别到U流水和V流水。当然超标量技术并不是到这个时候才诞生的,而是在很多年前就在计算机当中获得了应用。

这是历史上第一台超级计算机CDC6600。那么在这台计算机当中,有十个并行的功能部件,因此也被认为是最早采用了超标量技术的计算机。不过这些功能部件内部并没有采用流水线,所以从这里我们可以看出超标量技术和流水线技术实际上是相互独立的,只不过在现在采用了超标量技术的CPU也都是使用流水线的技术。

虽然CDC6600没有采用流水线,但它的下一代产品CDC7600就在这些并行的功能部件内实现了流水线的技术。

那我们再回到现在,ARM Cortex-A9的流水线结构。它每个时钟周期可以发射四条指令,根据指令的不同,总共会经过八到十一级流水线。与奔腾类似的是在流水线的前端比如说取指,译码并没有分成多条流水线而是采用统一的部件。当然我们要知道这些部件虽然看上去是一个,但它实际上比标量流水线要大得多。比如说取指部件至少一次要能取来四条指令甚至更多,而译码部件一次也至少应该完成四条指令的译码。而到了流水线的后端,才会从结构表示上体现出多条并行流水线的形态。

然后我们再来看Core i7的超标量流水线。这个流水线就更为复杂,这个是指令高度缓存(L1 Instruction Cache)也就相当于我们在流水线原理当中提到的指令存储器。我们可以看到每个周期从指令存储器当中会取回128个比特,也就是十六个字节,因为x86指令长度是不固定的,所以首先要经过一个指令长度的译码器(ILD),分解出到底哪几个字节是一条指令。那么在这一点上MIPS指令系统就体现出了明显的优势,它每条指令都是定长的,不用额外进行这样的识别工作。那么还有一点值得一提的是在译码器当中通过硬件会将x86的指令转换成更为简单的指令,这些指令被称为微操作,那从这里(Instruction Decoders)可以看出有三个简单的译码器(simple),用于对那些比较简单的x86指令进行转换,每条指令对应一个微操作。而那些非常复杂的指令则会通过这个复杂的译码器(complex)转换成多条微操作,而这些微操作都是类似于RISK指令的格式,这样在它流水器的后半部分看到的都是RISK格式的简单指令了。那这张图(左半部分)还只是流水线的前半部分。

我们再画出后半部分(右半部分)。在这里我们也可以看出多条并行的流水线(Port 0~5),而且因为在这个流水线当中运行的是微操作,都是采用了RISK的编码风格。所以,这里也可以充分运用大量面向RISK处理器研发出的高级流水线的技术。这也就是为什么我们现在经常说x86虽然是一个CISK的指令系统,但它实际上是用RISK的方式去实现的。

那这个CPU就是一个4发射16级流水的超标量流水线。

那我们再来比较一下超标量流水线和之前的标量流水线。最开始从单周期处理器到流水线处理器主要考虑的是时间并行性上的优化,通过对现有硬件进行切分,只是增加了少量的流水线寄存器以及部分的控制信号的改动,那原本串行执行的指令在一定程度上并行起来。而从标量流水线到超标量流水线则是主要考虑了空间并行性上的优化,这是让不同的指令同时在不同的流水线上运行,那么简单的看来每增加一个发射数就需要增加一条流水线的硬件资源。

我们最后来看一看超标量流水线与多核的关系。从原理上讲它们都是在空间并行性方面寻求的优化,我们还是看一个实际的例子。这就是Core i7,也是我们现在熟知的多核超标量处理器。那么来看看它内部的结构。

首先我们来看一个概念叫做处理器核。这部分实际上就包含了我们之前介绍的那些数据通路控制信号等等。当然还需要包含指令和数据的高度缓存(I-Cache和D-Cache),对应了我们原理结构当中的指令存储器(Instruction Memory)和数据存储器(Data Memory)。那为了提高性能现在的处理器当中一般还配备了二级的高速缓存(L2 Cache)。这些部件的关系非常紧密,我们通常也就把这一部分称为一个处理器核。

那么刚才看到那个4发射16级流水线的结构图就是在只这么一个处理器核内部的结构(图中最左边虚线内的框图),那么可以说这一个处理器核就是一个超标量流水线的处理器核。而在单核的时代这个部分结构就单独制造出了一个芯片,就是以前的单核CPU。那现在我们把这样同样的结构复制多份,然后再加上一些共享的存储部件就构成了一个多核的CPU,这里面有四个核那就是一个四核的CPU。每一个核内部都是一个超标量流水线的结构,这就是我们现在通常说的多核CPU和超标量流水线之间的关系。

现在我们已经从整体框架层面了解了流水线处理器的发展演变的过程,而且也知道了现代最先进流水线处理器的大体结构。但是仅仅了解这些是不够的,流水线的方式引入处理器之后它自身也带来了一些新的问题,我们必须了解并解决这些问题。这是我们下一节将要探讨的主题。

转载于:https://www.cnblogs.com/houhaibushihai/p/9736470.html

7.3 超标量流水线相关推荐

  1. CPU流水线的探秘之旅

    英文原文:A Journey Through the CPU Pipeline 编译:@deuso_ICT 作为程序员,CPU 在我们的工作中扮演了核心角色,因此了解处理器内部的工作方式对程序员来说不 ...

  2. CPU设计学习-流水线

    各种名词 标量流水线 超级流水线 超标量流水线与多发射技术 经典五级流水线 IF |Instruction Fetch,取指 ID |Instruction Decode,译码 EX |Execute ...

  3. 计算机组成原理-7、流水线

    前言:去年备研学习计算机组成原理的一些笔记,因为主要为了应付考试,记得比较仓促,仅供参考. 文章目录 流水线技术与指令级并行 流水线处理 流水线的一般结构 流水线类型 浮点运算流水线(重点) 指令流水 ...

  4. 流水线的指令解读及相关计算

    前言 指令通常存储在主存中,默认情况下由程序计数器进行依次读取,除非遇到 JMP 命令才会进行跳转继续执行.而 执行一条指令的过程一般如下( 结合图片进行理解 ):        ①先根据程序计数器 ...

  5. Simplescalar 模拟器介绍 及 sim-outorder超标量乱序执行步骤详解

    SimpleScalar模拟器是一个超标量.5级流水的RISC(Reduced Instruction Set Computing)体系结构模拟器,提供了从最简单的功能模拟到超标量乱序发射的不同的模拟 ...

  6. 超标量处理器基础笔记

    超标量处理器基础-笔记 现代处理器设计经典书籍,2004年出版 第一章 处理器设计 1.2 指令集处理器设计 1.微处理器的设计规范就是指令集体系结构(ISA),它定义了微处理器必须执行的一整套指令集 ...

  7. 计算机中的流水线技术到底是个啥?

    写在前面 流水线技术是计算机中的一种相当重要的技术.简单的说,流水线技术的出现使得计算机能够支持并行计算,能够并行执行任务.尽管流水线技术非常重要,但是很多小伙伴对流水线技术还是一知半解,甚至很多小伙 ...

  8. 计算机系统结构:Pipelining 基本流水线技术

    如何让程序运行更快? CPU性能公式:CPU时间 = CPI × 所执行的指令条数 × 时钟周期时间 关于流水线的几个问题: Pipeline Hazard(Data hazard.structure ...

  9. 计算机系统 流水线技术

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  10. 【计算机组成原理】流水线技术

    流水线工作原理 串行处理: 同一时刻只能进行一个操作 . 并行处理: 同时性:两个以上事件在同一时刻发生. 并发性:两个以上事件在同一时间间隔内发生. 将一条指令的实现过程分成时间上大致相等的几个阶段 ...

最新文章

  1. 审计署计算机培训心得体会,审计署计算机中级培训心得体会
  2. 如何建立一个FTP服务器(SERV-U使用教程)
  3. 如何Exchange移动数据库文件(一)
  4. Win7虚拟无线AP以及Android手机抓包
  5. 一套存储承载全场景,XSKY星辰天合发布企业级SDS V5系列
  6. idea中导入jdbc驱动步骤详解
  7. 关于Toast 详解
  8. UML基本表示法(转载)
  9. 并发减库存,怎么保证不超卖?
  10. 汇编语言子程序设计 查找电话号码
  11. typora激活方法及使用教程
  12. c语言错误中numeric,LC_NUMERIC
  13. 试用LibreOffice对VBA的支持
  14. 搞事情 | 大数据文摘和ta的朋友们:环游世界的80天
  15. flask 起服务 、访问
  16. Verilog纠错记录
  17. 启航—前端—第三次作业—百度页面
  18. mysql scaffold_dotnet core 3.0.0-preview8 EF DB First mysql和oracle用Scaffold 报错
  19. 基于深度学习的计算机视觉:原理与实践
  20. 正在用Wordpress做一个老外学中文的网站

热门文章

  1. centos7安装tree命令
  2. C语言通讯录—简单模拟实现
  3. 史上最详细的vsftpd配置文件讲解
  4. 天勤2022数据结构(二)栈和队列
  5. AI一分钟|亚马逊回应中国代工厂违规事件;特斯拉将开启全自动驾驶功能;小米CDR招股书看点...
  6. 电脑的眼泪--无限弹窗3
  7. 短视频app源码开发,Java使用ffmpeg实现音视频分离
  8. 基于Matlab人脸识别(PCA算法)
  9. egg(72,73)--egg之商品curd的编辑
  10. DSP实验报告—实验1