SSE指令介绍及其C、C++应用 zz
http://blog.csdn.net/fireseed/archive/2004/06/01/2185.aspx
SSE是英特尔提出的即MMX之后新一代(当然是几年前了)CPU指令集,最早应用在PIII系列CPU上。现在已经得到了Intel PIII、P4、Celeon、Xeon、AMD Athlon、duron等系列CPU的支持。而更新的SSE2指令集仅得到了P4系列CPU的支持,这也是为什么这篇文章是讲SSE而不是SSE2的原因之一。另一个原因就是SSE和SSE2的指令系统是非常相似的,SSE2比SSE多的仅是少量的额外浮点处理功能、64位浮点数运算支持和64位整数运算支持。
 
SSE为什么会比传统的浮点运算更快呢?因为它使用了128位的存储单元,这对于32位的浮点数来讲,是可以存下4个的,也就是说,SSE中的所有计算都是一次性针对4个浮点数来完成的,这种批处理当然就会带来效率的提升。我们再来回顾一下SSE的全称:Stream SIMD Extentions(流SIMD扩展)。SIMD就是single instruction multiple data,连起来就是“数据流单指令多数据扩展”,从名字我们就可以更好的理解SSE是如何工作的了。
 
虽然SSE从理论上来讲要比传统的浮点运算会快,但是他所受的限制也很多,首先,虽然他执行一次相当于四次,会比传统的浮点运算执行4次的速度要快,但是他执行一次的速度却并没有想象中的那么快,所以要体现SSE的速度,必须有Stream做前提,就是大量的流数据,这样才能发挥SIMD的强大作用。其次,SSE支持的数据类型是4个32位(共计128位)浮点数集合,就是C、C++语言中的float[4],并且必须是以16位字节边界对齐的(稍后会以代码来进行阐释,关于边界对齐的概念,读者可以参考论坛上的其它文章,都会有很详细的解答,我这里就恕不赘述了)。因此这也给输入和输出带来了不少的麻烦,实际上主要影响SSE发挥性能的就是不停的对数据进行复制以适用应它的数据格式。
 
我是一个C++程序员,对汇编并不很熟,但我又想用SSE来优化我的程序,我该怎么做呢?幸好VC++.net为我们提供了很方便的指令C函数级的封装和C格式数据类型,我们只需像平时写C++代码一样定义变量、调用函数就可以很好的应用SSE指令了。
 
当然了,我们需要包含一个头文件,这里面包括了我们需要的数据类型和函数的声明:
#include
SSE运算的标准数据类型只有一个,就是:
__m128,它是这样定义的:

typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 {
   float m128_f32[4];
} __m128;

简化一下,就是:
struct __m128
{
   float m128_f32[4];
};
 
比如要定义一个__m128变量,并为它赋四个float整数,可以这样写:

__m128 S1 = { 1.0f, 2.0f, 3,0f, 4,0f };

要改变其中第2个(基数为0)元素时可以这样写:

S1.m128_f32[2] = 6.0f;

令外我们还会用到几个赋值的指令,它可以让我们更方便的使用这个数据结构:
 
S1 = _mm_set_ps1( 2.0f );
它会让S1.m128_f32中的四个元素全部赋予2.0f,这样会比你一个一个赋值要快的多。
 
S1 = _mm_setzero_ps();
这会让S1中的所有4个浮点数都置零。
 
还有一些其它的赋值指令,但执行起来还没有自己逐个赋值来的快,只做为一些特殊用途,如果你想了解更多的信息,可以参考MSDN -> VisualC++参考 -> C/C++Language -> C++Language Reference -> Compiler Intrinsics -> MMX, SSE, and SSE2 Intrinsics -> Stream SIMD Extensions(SSE)章节。
 
一般来讲,所有SSE指令函数都有3个部分组成,中间用下划线隔开:
_mm_set_ps1
mm表示多媒体扩展指令集
set表示此函数的含义缩写
ps1表示该函数对结果变量的影响,由两个字母组成,第一个字母表示对结果变量的影响方式,p表示把结果做为指向一组数据的指针,每一个元素都将参与运算,S表示只将结果变量中的第一个元素参与运算;第二个字母表示参与运算的数据类型。s表示32位浮点数,d表示64位浮点数,i32表示32位定点数,i64表示64位定点数,由于SSE只支持32位浮点数的运算,所以你可能会在这些指令封装函数中找不到包含非s修饰符的,但你可以在MMX和SSE2的指令集中去认识它们。
 
接下来我举一个例子来说明SSE的指令函数是如何使用的,必须要说明的是我以下的代码都是在VC7.1的平台上写的,不保证对其它如Dev-C++、Borland C++等开发平台的完全兼容。
 
为了方便对比速度,我会用常归方法和SSE优化两种写法写出,并会用一个测试速度的类CTimer来进行计时。
 
这个算法是对一组float值进行放大,函数ScaleValue1是使用SSE指令优化的,函数ScaleValue2则没有。我们用10000个元素的float数组数据来测试这两个算法,每个算法运算10000遍,下面是测试程序和结果:

#include <xmmintrin.h>
#include <windows.h>
 
class CTimer
{
public:
       __forceinline CTimer( void )
       {
              QueryPerformanceFrequency( &m_Frequency );
              QueryPerformanceCounter( &m_StartCount );
       }
       __forceinline void Reset( void )
       {
              QueryPerformanceCounter( &m_StartCount );
       }
       __forceinline double End( void )
       {
              static __int64 nCurCount;
              QueryPerformanceCounter( (PLARGE_INTEGER)&nCurCount );
              return double( nCurCount * ( *(__int64*)&m_StartCount ) ) / double( *(__int64*)&m_Frequency );
       }
private:
       LARGE_INTEGER m_Frequency;
       LARGE_INTEGER m_StartCount;
};
 
 
void ScaleValue1( float *pArray, DWORD dwCount, float fScale )
{
       DWORD dwGroupCount = dwCount / 4;
       __m128 e_Scale = _mm_set_ps1( fScale );
       for ( DWORD i = 0; i < dwGroupCount; i++ )
       {
              *(__m128*)( pArray + i * 4 ) = _mm_mul_ps( *(__m128*)( pArray + i * 4 ), e_Scale );
       }
}
 
void ScaleValue2( float *pArray, DWORD dwCount, float fScale )
{
       for ( DWORD i = 0; i < dwCount; i++ )
       {
              pArray[i] *= fScale;
       }
}
 
#define ARRAYCOUNT 10000
int __cdecl main()
{
       float __declspec(align(16)) Array[ARRAYCOUNT];
       memset( Array, 0, sizeof(float) * ARRAYCOUNT );
       CTimer t;
       double dTime;
       t.Reset();
       for ( int i = 0; i < 100000; i++ )
       {
              ScaleValue1( Array, ARRAYCOUNT, 1000.0f );
       }
       dTime = t.End();
       cout << "Use SSE:" << dTime << "秒" << endl;
 
       t.Reset();
       for ( int i = 0; i < 100000; i++ )
       {
              ScaleValue2( Array, ARRAYCOUNT, 1000.0f );
       }
       dTime = t.End();
       cout << "Not Use SSE:" << dTime << "秒" << endl;
 
       system( "pause" );
       return 0;
}
 

Use SSE:0.997817
Not Use SSE:2.84963
 
这里要注意一下,我使用了__declspec(align(16))做为数组定义的修释符,这表示该数组是以16字节为边界对齐的,因为SSE指令只能支持这种格式的内存数据。
 
 
我们在这里看到了SSE算法的强大,相信它会成为多媒体程序员手中用来对付无穷尽流媒体数据的一把利剑。我后面还会写一些关于SSE算法更复杂应用的文章,敬请关注,感谢您抽时间阅读!

SSE指令介绍及其C、C++应用 zz相关推荐

  1. 一文读懂SIMD指令集 目前最全SSE/AVX介绍

    SIMD指令集 SSE/AVX 概述 参考手册 Intel® Intrinsics Guide Tommesani.com Docs Intel® 64 and IA-32 Architectures ...

  2. C#中的预编译指令介绍

    原文:C#中的预编译指令介绍 1.#define和#undef 用法: #define DEBUG #undef DEBUG #define告诉编译器,我定义了一个DEBUG的一个符号,他类似一个变量 ...

  3. sse指令加速例子-无对比

    #define WIN #include "timing.h" #include <intrin.h> #include <stdlib.h> #inclu ...

  4. Vue.js-Day01-AM【第一次学习-安装、基础使用(引入方式)、数据展示、指令介绍(v-html、v-text、v-bind、v-if、v-for】

    Vue.js实训[基础理论(5天)+项目实战(5天)]博客汇总表[详细笔记] 目   录 1.讲在前面 课程内容 实训课内容 2.Vue.js介绍 2.1.安装 开发环境 版本介绍 2.2.基础使用 ...

  5. 浅析VS2010反汇编 VS 反汇编方法及常用汇编指令介绍 VS2015使用技巧 调试-反汇编 查看C语言代码对应的汇编代码...

    浅析VS2010反汇编 2015年07月25日 21:53:11 阅读数:4374 第一篇 1. 如何进行反汇编 在调试的环境下,我们可以很方便地通过反汇编窗口查看程序生成的反汇编信息.如下图所示. ...

  6. 我的世界服务器怎么显示腐竹来了,我的世界服务器主人可用指令一览 我的世界腐竹常用指令介绍_游侠手游...

    我的世界服务器主人可用指令一览,我的世界腐竹指令介绍.作为我的世界中一个服务器的主人,你可以掌控这个服务器的天时地利,具体做法自然就是使用指令了.接下来小编就给大家带来服主的常用指令介绍,大家一起来看 ...

  7. mc服务器常用指令_我的世界服务器指令大全 史上最全的服务器指令介绍

    我的世界服务器指令大全 史上最全的服务器指令介绍.那大家也知道在我的世界中有许许多多的指令,有的是单机的有的是手机的也有的是服务器的,那今天给大家介绍的是服务器的指令,那下面一起来看看在服务器里面都有 ...

  8. c语言看门狗指令pic,PIC指令介绍

    原标题:PIC指令介绍 工作以来一直使用ST的 ,其他的单片机虽大致了解但从未认真看过,近几日恰好无事,决定熟悉一下 的单片机,于是想将自己从网上或这书本上的东西转下来,予以同一样的初学者共同参考. ...

  9. Nginx中server_name指令介绍

    Nginx中server_name指令介绍 用途 根据官方文档说明,用来设置虚拟服务器,对于用IP还是请求头部中的Host字段内容设置这个指令的值,没有明确的分别. 用法 指令后跟特定域名,此时第一个 ...

  10. 我的世界服务器修改速度,我的世界速度提升指令是什么_我的世界速度提升指令介绍_玩游戏网...

    我的世界速度提升指令是什么?小编这里带来了我的世界速度提升指令介绍,还不太清楚的玩家们就进来看看吧! 我的世界速度提升指令是什么? 小伙伴们在游戏中可以通过作弊模式来输入各种指令,你想要获得的状态都是 ...

最新文章

  1. java 字符串xml,解析java中的xml字符串?
  2. accessors 作用_lombok @Accessors用法详解(一看就能就懂)
  3. Codeforces Round #506 (Div. 3) 1029 F. Multicolored Markers
  4. Spring Bean 后置处理器PostProcessor
  5. 让Windows XP系统快上几倍的三个绝招
  6. 导师推荐,本周开课 | 第 5 期临床基因组家系分析,同时解决科研和临床问题
  7. Linux 内核参数及Oracle相关参数调整
  8. html判断图片资源是否存在,javascript怎么判断图片是否存在?
  9. Qt 实现Windows系统Win10 c++音量调节
  10. jmeter性能测试之录制脚本
  11. 流媒体服务器之 ZLMediaKit介绍
  12. [bzoj3887][Usaco2015 Jan]Grass Cownoisseur_trajan_拓扑排序_拓扑序dp
  13. 深入分析Zookeeper的Leader选举原理
  14. 项目4-分数类和整型数的四则运算
  15. 0/0型极限等于多少_有限个极限运算及常见错误小结
  16. python--文件的导入与导出
  17. set name utd8_ml utd 8机器学习数据的最新生命
  18. 面试常问集锦——Java基础部分
  19. Java生鲜电商平台-异常模块的设计与架构
  20. 爬虫学习经验分享-------某点评网站

热门文章

  1. go中break continue的使用:示例
  2. linux工程常用的应用命令总结:
  3. ubuntu安装注意事项:
  4. c语言输出菱形for循环_C语言如何输出菱形
  5. python中的numpy库有什么优缺点_Python中Numpy库的基础知识点
  6. 小学生学计算机动画,小学生电脑绘画软件_电脑绘画之“卡通小熊”
  7. Java类集框架 —— ArrayList源码分析
  8. java 去掉html/style/css等标签
  9. 如何手动从Exchange2007/1010边缘/集线器传输服务器卸载ScanMail for Exchange(SMEX10.0)程序...
  10. 【激光雷达3D】【论文翻译】PointPillars: Fast Encoders for Object Detection from Point Clouds