SSE

概述

SSE(Streaming SIMD Extensions)是英特尔在AMD的3D Now!发布一年之后,在其计算机芯片Pentium III中引入的指令集,是MMX的超集。AMD后来在Athlon XP中加入了对这个指令集的支持。这个指令集增加了对8个128位寄存器XMM0-XMM7的支持,每个寄存器可以存储4个单精度浮点数。使用这些寄存器的程序必须使用FXSAVE和FXRSTR指令来保持和恢复状态。但是在Pentium III对SSE的实现中,浮点数寄存器又一次被新的指令集占用了,但是这一次切换运算模式不是必要的了,只是SSE和浮点数指令不能同时进入CPU的处理线而已。
SSE2是Intel在P4的最初版本中引入的,但是AMD后来在Opteron 和Athlon 64中也加入了对它的支持。这个指令集添加了对64位双精度浮点数的支持。这个指令集还增加了对CPU的缓存的控制指令。AMD对它的扩展增加了8个XMM寄存器,但是需要切换到64位模式(AMD64)才可以使用这些寄存器Intel后来在其EM64T架构中也增加了对AMD64的支持。
SSE3是Intel在P4的Prescott版中引入的指令集,AMD在Athlon 64的第五个版本中也添加了对它的支持。以及对超线程技术的支持。
SSE4指令集将给英特尔下一代平台带来“相当大的视频性能提升”。,其它视频增强技术还包括CVT(明晰视频技术)--英特尔对ATI Avivo的回应--和对UDI的支持。上述两项技术基于英特尔965芯片组。其它英特尔官方文件把CVT技术定义为:支持高级解码、拥有预处理和增强型3D处理能力。 SSE4指令集是Conroe架构所引入的新指令集。这项原本计划应用于NetBurst微架构Tejas核心处理器之上的全新技术也随着它的夭折最终没能实现,这不能不说是个遗憾,但是SSE4指令集出现在了Conroe上又让我们看到了希望。
SSE4指令集共包括16条指令,不过虽然扣肉处理器推出已经有一些时日。也许英特尔是基于特殊的考虑,仅让少数合作软件厂商取得数据,只是这种作法实在很没有说服力就是了,天底下没有哪家处理器厂商,希望自己新增的指令越少人用越好。
不过,从Intel Core微架构针对SSE指令所作出的修改被称之为“Intel Advanced Digital Media Boost”技术来看,未来SSE4将更注重针对视频方面的优化,我们认为SSE4主要改进之处可能将针对英特尔的Clear Video高清视频技术及UDI接口规范提供强有力的支持。这两项技术基于965芯片组,Intel的官方把Clear Video技术定义为:支持高级解码、拥有预处理和增强型3D处理能力。值得一提的是,在SSE4中另一个重要的改进就是提供完整128位宽的SSE执行单元,一个频率周期内可执行一个128位SSE指令。Conroe中SSE的ADDPS(4D 32bit共128bit,单精度加法)、MULPS(4D 32bit共128bit,单精度乘法)和SSE2的ADDPD(2D 64bit共128bit,双精度加法)、MULPD(2D 64bit共128bit,双精度乘法),这四条重要SSE算术指令的吞吐周期都降低到1个周期,真正做到了英特尔宣称的每个周期执行一条128位向量加法指令和一条128位向量乘法指令的能力。
可以说 Conroe的向量单元已经全面引入了流水线化的设计。而支持SSE3的NetBurst微处理器架构虽然提供128位宽执行单元,但仅有一组,性能孰高孰低一目了然。更为重要的是,可见其应用范围相当广泛。
配合完整的128位SSE执行单元,以及庞大的执行单元数目,Conroe处理器可在一个频率周期内,同时执行128位乘法、128位加法、128位数据加载与128位数据回存,或着是4个32位单倍浮点精确度乘法与4个32位单倍浮点精确度加法运算,这将使其更利于多媒体应用。因此,SSE4指令集能够有效带来系统性能上的提升,这一代在众多测试中早已被证实。虽然其不会像当年SSE2指令集出现时那样带来巨大的性能提升,但是其在某些特殊方面的应用还是让我们对它充满了期待。

后续版本

SSE2
SSE2是Intel在Pentium 4处理器的最初版本中引入的,但是AMD后来在Opteron 和Athlon 64处理器中也加入了SSE2的支持。SSE2指令集添加了对64位双精度浮点数的支持。这个指令集还增加了对CPU快取的控制指令。AMD对它的扩展增加了8个XMM寄存器,但是需要切换到64位模式(AMD64)才可以使用这些寄存器。
SSE3
SSE3是Intel在Pentium 4处理器的 Prescott 核心中引入的第三代SIMD指令集,AMD在Athlon 64的第五个版本,Venice核心中也加入了SSE3的支持。以及对超执行绪技术的支持。
SSSE3
SSSE3是Intel针对SSE3指令集的一次额外扩充,最早内建于Core 2 Duo处理器中。
SSE4
SSE4是Intel在Penryn核心的Core 2 Duo与Core 2 Solo处理器时,新增的47条新多媒体指令集,多媒体指令集,并内建在Phenom与Opteron等K10架构处理器中,不过无法与Intel的SSE4系列指令集相容。
SSE5
SSE5]是AMD为了打破Intel垄断在处理器指令集的独霸地位所提出的,SSE5初期规划将加入超过100条新指令,其中最引人注目的就是三算子指令(3-Operand Instructions)及熔合乘法累积(Fused Multiply Accumulate)。其中,三算子指令让处理器可将一个数学或逻辑函式库,套用到算子或输入资料。借由增加算子的数量,一个 x86 指令能处理二至三笔资料, SSE5 允许将多个简单指令汇整成一个指令,达到更有效率的指令处理模式。提升为三运算指令的运算能力,是少数 RISC 架构的水平。熔合乘法累积让允许建立新的指令,有效率地执行各种复杂的运算。熔合乘法累积可结合乘法与加法运算,透过单一指令执行多笔重复计算。透过简化程式码,让系统能迅速执行绘图着色、快速相片着色、音场音效,以及复杂向量演算等效能密集的应用作业。SSE5最快将内建于AMD下一代Bulldozer核心。
AVX
AVX是Intel的SSE延伸架构,如IA16至IA32般的把暂存器XMM 128bit提升至YMM 256bit,以增加一倍的运算效率。此架构支持了三运算指令(3-Operand Instructions),减少在编码上需要先复制才能运算的动作。在微码部分使用了LES LDS这两少用的指令作为延伸指令Prefix。
FMA
FMA是Intel的AVX扩充指令集,如名称上熔合乘法累积(Fused Multiply Accumulate)的意思一样。
-----------------------------------------------------------------

SIMD

Single Instruction Multiple Data,单指令多数据流,能够复制多个操作数,并把它们打包在大型寄存器的一组指令集。

以同步方式,在同一时间内执行同一条指令。
SIMD在性能上的优势:
以加法指令为例,单指令单数据(SISD)的CPU对加法指令译码后,执行部件先访问内存,取得第一个操作数;之后再一次访问内存,取得第二个操作数;随后才能进行求和运算。而在SIMD型的CPU中,指令译码后几个执行部件同时访问内存,一次性获得所有操作数进行运算。这个特点使SIMD特别适合于多媒体应用等数据密集型运算。
如:AMD公司引以为豪的3D NOW! 技术实质就是SIMD,这使K6-2、雷鸟、毒龙处理器在音频解码、视频回放、3D游戏等应用中显示出优异的性能。
-----------------------------------------------------------------

MMX

MMX 是MultiMedia eXtensions(多媒体扩展)的缩写,是第六代CPU芯片的重要特点。MMX技术是在CPU中加入了特地为视频信号(Video Signal),音频信号(Audio Signal)以及图像处理(Graphical Manipulation)而设计的57条指令,因此,MMX CPU极大地提高了电脑的多媒体(如立体声、视频、三维动画等)处理功能。

简介编辑

MMX技术是继Intel386(TM)处理器(将体系结构扩展至32位)之后对Intel体系结构的最重要的加强。这些指令集能够加速处理有关图形、影像、声音等的应用,MMX 加强了在多媒体处理功能的不足,它可以利用其内建的多媒体指令来模拟3D绘图的处理、MPEG的压缩/解压缩。立体声的音效等,只要是软件支持MMX CPU,即可以取代这些硬件的接口而达到多媒体的功效。[1] 

2特性编辑

MMX技术的基础是一项称为单指令、多数据(SIMD)的技术。它使得许多条信息可由一条单一指令来处理,这种平行操作使性能得以大幅度地提高。MMX技术被集成到Intel体系结构的处理器中,同时保持了与现有操作系统(如MS DOS,Windows3.1,Windows95,OS/2及UNIX)的充分兼容。除此之外,所有Intel体系结构的软件将能够在采用MMX技术的系统中运行。
MMX的另一个特征是在计算结果超过实际处理能力的时候也能进行正常处理。若用传统的X86指令,计算结果一旦超出了CPU处理数据的限度,数据就要被截掉,而变成较小的数。MMX利用所谓的“饱和(Saturation)”功能,圆满的解决了这一问题。[1] 
除了指令集中增加MMX指令(多媒体增强指令集)外,还将CPU芯片内的L1缓存由原来的16KB增加到32KB(16K指令+16K数据),因此MMX CPU比普通CPU在运行含有MMX指令的程序时,处理多媒体的能力上提高了60%左右。目前CPU基本都具备MMX技术,除P55C和Pentium ⅡCPU还有K6、K6 3D、MII等。[1] 

3缺点编辑

由于MMX的运算指令必须在数据配对整齐的时候才能使用,所以使用MMX指令要比普通的汇编指令多余许多分组配对的指令,如果运算不是特别的整齐的话,就要浪费大量的时间在数据的配对上,所以说MMX指令也不是万能的,也有其很大的缺陷。同时MMX指令在处理16位数据的时候才能发挥最大的作用,处理8位数据要有一点技巧。而处理32位数据,MMX指令几乎没有什么加速能力。(考虑分组耗时)[2] 

4基本指令集编辑

拷贝指令
movq:64位数据拷贝,如果内存8位对齐的话,是一个64位写,否则2个32位写。
movd:32位数据拷贝,注意:如果从内存向MMX寄存器拷贝,MMX高32位清零!
分组指令
分组指令是MMX特有的,所以对于它我们要特别的关注。分组指令基本上可以分为2类,一类是不带符号紧缩的,一类是带符号紧缩的。现在我们分别予以介绍:
①punpcklbw / punpcklwd / punpckldq (l表示低位分组,bw8位,wd16位,dq32位):它是简单的将两个MMX寄存器的低32位交错组合为一个64位数据。所以它是不能将长数据转换为短数据的。
②packuswb 将16位数据转换为无符号的8位数据。所以可以将两个MMX寄存器不交错的合为一个64位数据。
③packsswb/packssdw 将32位-》16位,16位-》8位,都是有符号的数据。
运算指令
加法运算指令:paddb(w)(d):没有越界保护的加法,当越界的时候仅仅丢弃超出范围的高位比特,(b)(w)(d)分别为8,16,32位加法;paddsb(w):具有越界保护的有符号加法,当上溢的时候为0x7fff,下溢的时候为0x8000;paddusb(w):具有越界保护的无符号加法,当上溢的时候为0x7fff,下溢的时候为0x0。
减法运算指令同上;add改为sub。
乘法指令:pmullw / pmulhw 是4个16位数据的乘法,pmullw中是结果的低16位,pmulhw是结果的高16位。pmaddwd 乘加指令。[2] 

5其他编辑

还有一个MMX的含意:(Matrix Math eXtensions)矩阵数学扩展。
罗马数字中“MMX”表示“2010”。
在红色警戒的游戏中“MMX”扩展名的文件表示能被红色警戒2和尤里的复仇都能识别的地图文件。

转载于:https://www.cnblogs.com/tibetanmastiff/p/4425868.html

Intel指令集专有词解释相关推荐

  1. python考试名词解释_python公开课|python专有名词居然有这么多,python专有名词解释已做好...

    [摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注py ...

  2. 《雍正皇帝》文化专有词翻译策略的研究现状

    绪论 第三节 研究综述 (二)文化专有词翻译策略的研究现状 著名西班牙翻译家艾克西拉(J.F. Aixela)从美国作家达希尔·哈米特的侦探小说<马耳他猎鹰>(The Maltese Fa ...

  3. 熟读《阿里巴巴java开发手册》(六、工程结构,七、 设计规约,专有名词解释)

    目录 六.工程结构 (一) 应用分层 (二) 二方库依赖 (三) 服务器 七. 设计规约 附 2: 专有名词解释 六.工程结构 (一) 应用分层 1. [推荐] 图中默认上层依赖于下层,箭头关系表示可 ...

  4. 《雍正皇帝》文化专有词泰译研究(选题缘由)

    绪论 第一节 选题缘由(二) 小说<雍正皇帝•九王夺嫡>的故事内容主要发生在清康熙后期,清朝已经入关五十多年,清朝皇室也接受了许多汉族的文化,特别是儒家的文化:但同时还保留着一些满族原有的 ...

  5. 《雍正皇帝·九王夺嫡》生态文化专有词泰译研究(二)

    第一章 与生态相关的文化专有词 (2)分类词 分类词策略是指使用译语中更笼统的分类词(上位词)翻译源语的文化专有词. 例4: 原文:满院都是蒿草. 译文:ในลานมีหญ้าขึ้นรก 原文中的& ...

  6. 《雍正皇帝》文化专有词泰译研究(研究综述)

    绪论 第三节 研究综述 在本次研究中,笔者阅读并研究了与文化专有词的分类.文化专有词的翻译策略相关的学术文献,下面将具体讨论. (一)文化专有词分类的研究现状 世界各地的文化存在差异,这导致向另一种不 ...

  7. 《雍正皇帝·九王夺嫡》物质文化专有词泰译研究(三)

    (3)改述 改述策略在往往用于翻译源语中特有的.照字面翻译读者难以准确理解的物质文化专有词,使用改述策略可以让读者更加清晰地了解原文的含义. 例17: 原文:导引太监将他们带到丹墀下便退了下去. 译文 ...

  8. 《雍正皇帝·九王夺嫡》中的文化专有词泰译研究(一)

    目录 中文摘要 英文摘要 绪论 第一节 选题缘由 第二节 研究目的.意义和范围 (一)研究目的 (二)研究意义 (三)研究范围 第三节 研究综述 (一)文化专有词分类的研究现状 (1)文化专有词的定义 ...

  9. intel 指令集_苹果首款ARM Mac来了,浅谈ARM和Intel处理器

    点击蓝字 关注我们 苹果发布会 在11月11日凌晨,苹果的新品发布会中 ,推出了基于首款ARM框架的Mac. 苹果的Mac将不再使用 Intel的芯片,而且ARM 版 Mac 会采用自研 GPU.这意 ...

最新文章

  1. Windows软件路由器典型应用:静态路由、RIP和包过滤
  2. 卷积神经网络的实际意义
  3. 利用HTTP Cache来优化网站
  4. 获取当前目录所有文件名 并且保存为1个00000.txt的文件文件bat
  5. JavaScript的5种调用函数的方法
  6. 1.5 try catch语句详解
  7. Qt中利用QProcess调用外部cmd.exe执行程序
  8. Something about WMI
  9. Android 表单之 EditText(输入框)详解
  10. Linux 文件权限、用户权限和用户组管理vim的一些基本使用技巧
  11. 在Java中导出word、excel格式文件时JSP页面头的设置
  12. C Primer Plus 第四章 复习题编程练习 答案
  13. 什么是数字证书?数字证书在哪办理?
  14. 联想ThinkPad SL410(28428KC)与2842-EWC区别
  15. 拼音搜索函数(C# and java)
  16. 工程经济作业1答案_国开电大工程经济与管理阶段作业1答案
  17. C++:vector的push_back()与emplace_back()
  18. 安规电容(X电容,Y电容)的简单对比介绍
  19. USB3.0无法识别U盘解决办法
  20. 2022危险化学品经营单位安全管理人员考试题库模拟考试平台操作

热门文章

  1. 腾讯会议考勤方法-巧用EXCEL表格的筛选功能及countif函数
  2. 解决spring的事物注解失效问题
  3. java 简单的计算器程序_java 简单计算器
  4. 计量经济分析:计量经济学中的三大检验(LR, Wald, LM)
  5. 【TIPTOP】ERP发起接口例子(客户端)
  6. 基于tkinter+python36制作得视频播放器,非会员也可播放
  7. 秒杀系统设计方案的思考
  8. 班级奖学金管理系统java_jsp学生奖学金评奖评优管理系统
  9. 转数学专业的数学与计算机专业的数学的比较
  10. InterValue技术团队:MT——面向多行业场景实用化区块链解决方案