作者 | 轩辕之风O

来源 | 编程技术宇宙

好久不见,我叫阿Q,是CPU一号车间的员工。我所在的CPU有8个车间,也就是8个核心,咱们每个核心都可以同时执行两个线程,就是8核16线程,那速度杠杠滴。

我所在的一号车间,除了负责执行指令的我,还有负责读取指令的小A,负责指令译码的小胖和负责结果回写的老K,我们几个各司其职,一起完成执行程序的工作。

一个简单的循环

那天,我们遇到了一段代码:

void array_add(int data[], int len) {for (int i = 0; i < len; i++) {data[i] += 1;}
}

循环了好几百次之后,才把这段代码执行完成,每次循环都是做简单又重复的工作,把我累得够呛。

一旁负责结果回写的老K也是累的满头大汗,吐槽道:“每次都是取出来加1又写回去,要是能一次多取几个数,批量处理就好了”

老K的话让我眼前一亮,对啊,能不能批量操作呢?

心里一边想着,一边继续干活了。

繁忙的一天很快结束了,转眼又到了晚上,计算机关机后,我把大家召集了起来。

“兄弟们,还记得咱们白天遇到的那个循环吗?”

“你说哪个循环,咱们这一天可执行了不少循环呢”,小A说到。

“就是那个把整数数组每个元素都加1的那个循环”

“我想起来了,那循环怎么了?有什么问题吗?”

我看了老K一眼,说道:“我在想今天老K的话,像这种循环,每次都是取出来加1又写回去,一次操作一个数,效率太低了,咱们要是升级改造一下,支持一次取出多个数,批量加1,这样岂不是快很多?”

老K一听来了兴趣,“这敢情好,你打算怎么做?”

“这我还没想好,大家有什么建议吗?”

一旁负责指令译码的小胖说道:“可以新增一条指令,专门用来一次取出多个数据来加1”

“不行不行,不能限的这么死,今天是加1,万一下次是加2呢?指令里面不能限制为1”

“那如果每个数据要加的是不一样的怎么办?”

“你这么一说,那万一不是加法,是减法,乘法怎么办?”

“还有啊,···”

大家开始七嘴八舌讨论了起来,没想到一个小小的加法循环,一下子引出了这么多问题来,这是我们没想到的。

并行计算

随着讨论的深入,我觉得已经超出了咱们一号车间能把控的范围,需要上报给领导,组织八个车间代表一起来商讨。

领导一听说有提高性能的新技术,马上来了兴趣,很快便开会组织大家一起来商讨方案。

“都到齐了是吧,阿Q你给大家说一下这个会议的目的”,领导说到。

我站了起来,开始把我们遇到的问题和想法跟大家讲了一遍。

“是这样的,我们一号车间那天遇到了一段循环代码,循环体的内容很简单,就是给数组中的每一个元素加1。我们执行的时候,就是不断取出每一个元素,然后将其执行加法计算后,再写回去。这样一个一个来加1,我们感觉太慢了, 要是可以一次多取几个,并行加1,那一定比一个一个加快上不少。”

我刚说完,大家都开始小声议论起来。

“我看出来了,这其实就是并行计算!”,二号车间小虎一语道出了关键。

六号车间小六问道:”阿Q,你们已经有方案了吗?“

“还没有,这正是今天开会的目的,因为情况有点复杂,还需要大家一起来出出主意”

“好像并不复杂嘛”

“我上面举的例子只是一个简单的情况,并行计算还可能不是固定的数,可能是一个数组和另一个数组相加。还有可能不是整数相加,而是浮点数,甚至,还可能不是加法,而是减法或者乘法,再或者不是算术运算,而是逻辑运算”

我刚一说完,大家又开始窃窃私语交流起来。

“我琢磨着你说的这一系列东西,咱们是要新增一套专门用来并行计算的指令集啊”,小虎说道。

“这可是大工程啊”

“是啊···”

这时,小六又问道:“咱们的计算的时候,都是把数据读取到寄存器进行的,可这寄存器一次只能装一个数,怎么一次读取多个数据呢?”

“可能需要新增一些容量大一些的寄存器,比如128bit长度,可以同时容纳4个32位的整数”

“有这个必要吗?咱们是通用CPU,又不是专门做数学计算的芯片,搞这些东西干嘛?”,四号车间代表提出了质疑。

我也不甘示弱:“那可太有必要了,在图像、视频、音频处理等领域,有大量这样的计算需求,咱们得提升处理这些数据的能力”

见我们争执不下,领导拍了拍桌子,会场一下安静了下来。

“我觉得阿Q说的有道理,咱们确实需要提升处理这类数据运算的能力了。不过不用一下搞那么复杂,先支持整数并行运算就行了。新增寄存器这个也不用着急,可以先借用一下浮点数运算单元FPU的寄存器。这件事先这么定下来,具体的方案你们再继续讨论。”,说完便离开了会议室。

领导不愧是领导,几句话就把我们安排的明明白白。

SIMD

又经过一阵紧张的讨论,我们终于敲定了方案。

我们借用浮点数运算单元的寄存器,还给它们起了新的名字:MM0-MM7。因为是64位的寄存器,所以可以同时存储两个32位的整数或者4个16位整数或者8个8位的整数。

我们还新增了一套叫MMX的指令集,用来并行执行整数的运算。

我们把这种在一条指令中同时处理多个数据的技术叫做单指令多数据流(Single Instruction Multiple Data),简称SIMD

有了这套指令集,咱们处理这类整数运算问题的速度快了不少。

不过渐渐地发现了两个很麻烦的问题:

第一个问题,因为是借用FPU的寄存器,所以当执行SIMD指令的时候,就不能用FPU计算单元,反过来也一样,同时使用的话就会出乱子,所以要经常在不同的模式之间切换,实在是有些麻烦。

另一个更重要的问题,咱们这套指令集只能处理整数的并行运算,可现在浮点数的并行运算越来越多,尤其是图像、视频还有深度学习的一些数据处理,浮点数情况越来越多,这时候都派不上用场。

我们把这些问题给领导做了汇报,看到我们已经做出的成绩,领导终于同意继续升级。

这一次,我们扩展了一套新的SSE指令集出来,新增了XMM0-XMM7总共8个128位的寄存器,再也不用跟FPU共享寄存器了。而且位宽加了一倍,能容纳的数据更多了,能同时处理的数据自然也变多了。

后来,我们又不断的修改升级,不仅支持了对浮点数并行处理,还推出了新一代的AVX指令集,把寄存器再一次扩大为256位,现在我们的SIMD技术更加先进,处理数据运算的能力越来越强了!

因为一个循环,CPU搞了个新技术相关推荐

  1. 惠普笔记本按开机键后电源灯亮的,但是屏幕一直是黑的,只有大写锁定键闪烁,闪3次一个循环,听得到风扇...

    现象: 惠普笔记本按开机键后电源灯亮的,但是屏幕一直是黑的,只有大写锁定键闪烁,闪3次一个循环,听得到风扇转动的声音,热风,cpu应该也在工作,请问是什么问题. 解决(我按照红色的作了,就可以了,真是 ...

  2. 一个初级程序员学习新技术的策略

    一个初级程序员学习新技术的策略 我是一名初级程序员,工作一年多.还记得刚毕业,踏入社会的时候,面临着很多工作上尴尬和困惑.首当其冲的便是在学校学的知识并不够用,甚至并不管用.于是学习新技术成了重点解决 ...

  3. Java技巧:用一个循环语句输出九九乘法表!

    同学们在进行编程学习的时候,输出九九乘法表应该是基础中的基础了,只要我们使用几个循环语句即可轻松实现,那么你有没有想过如果只用一个循环语句应该怎么实现呢? 分析:注意是使用一个循环语句来写,增加了逻辑 ...

  4. 一个循环、一个变量打印乘法口诀

    前几天面试的时候遇到了一个问题,当时也没啥思路,而且时间比较紧,所以就空下了.回来后一直耿耿于怀,于是研究了一下. 问题是这样的:只用一个循环和一个变量打印出乘法口诀. 想了一段时间感觉还是没啥思路, ...

  5. [js] 使用js实现一个循环队列

    [js] 使用js实现一个循环队列 const queue = [] let queueRunning = false let loopTimer = null const loop = task = ...

  6. python循环10次_开发一个循环 5 次计算的小游戏, 设置随机种子为10,每次随机产生两个 1~10的数字以及随机选择...

    开发一个循环 5 次计算的小游戏, 设置随机种子为10,每次随机产生两个 1~10的数字以及随机选择 "+.-.*"运算符,构成一个表达式, 让用户计算式子结果并输入结果,如果计算 ...

  7. python1乘到10_python写一个循环1+到10打印计算步骤的脚本——纯粹无聊玩的

    python写一个循环1+到10打印计算步骤的脚本--纯粹无聊玩的 python写一个循环1+到10打印计算 [root@13cml10 ~]# cat a.py #_*_coding:utf-8_* ...

  8. 返回一个循环数组中最大子数组的和

    设计思路 首先利用rand()函数随机产生一个一维数组,数组长度通过宏定义来控制.求首尾连接的一维数组的最大子数组的和我的思路是:循环N次(N是数组的长度)依次检测数组的最大子数组的和再比较大小,保留 ...

  9. 一个物理CPU如何划分成多个虚拟CPU

    原文链接:一个物理CPU如何划分成多个虚拟CPU 问题:一个虚拟机可以分配多少个虚拟CPU,以及如何在服务器上限制虚拟机的数量? 一个物理CPU一般一个内核会支持多个处理线程(英特尔超线程技术).这就 ...

最新文章

  1. 分库分表的4个面试连环炮问题!不会就惨了!
  2. RDKit | 基于RDKit的PandasTools加速数据分析
  3. cocos2dx 3.3 异步加载纹理
  4. linux ssh 提示 too many authentication failures for root root的身份验证失败太多 解决办法
  5. Python标准模块—Regular Expressions
  6. Android 双击和手势的图片缩放
  7. 最喜欢的博客书签和站内短信系统
  8. java第三章_【Java】第三章 变量
  9. 数据:近24小时以太坊2.0存款合约新增2.06万ETH
  10. xcode 不能选择模拟器
  11. 目标检测(十)--SSD
  12. Redhat_as4_oracle10g自启动脚本设置
  13. JAVA内存管理+String创建字符串对象+常量池详解(合集)
  14. linux添加Qt的fontconfig,qt – 如何在Red Hat 5.3中将fontconfig更新为更新版本?
  15. 孪生网络图像相似度_孪生网络(Siamese Network)
  16. ElasticHD Windows环境下安装
  17. 国内从事机器视觉领域的公司
  18. C语言期末考试知识点
  19. Linux虚拟内存空间分布
  20. python包NetworkX学习——最短路径dijkstra_path和dijkstra_path_length

热门文章

  1. 【LeetCode笔记】199. 二叉树的右视图(Java、二叉树、层序遍历)
  2. 计算机网络 --- 数据链路层CSMA/CA协议
  3. pycharm中python的默认安装路径_mac PyCharm添加Python解释器及添加package路径的方法...
  4. cwinthread*线程指针怎么销毁结束_最新版Web服务器项目详解 01 线程同步机制封装类...
  5. android 富文本框架_当微擎框架遇上uniapp,以一当十同时开发十个平台项目
  6. python语言编程基础视频_网络编程-5_ Python系列视频(一)——Python语言基础_Python视频-51CTO学院...
  7. java 堆 是用_Java8元空间和堆使用
  8. html 美化input file,Input[type=”file”] 显示效果美化方法 | 智慧宫
  9. php导出csv_原生PHP实现导出csv格式Excel文件的方法示例【附源码下载】
  10. 多stream_基础之Lambda和Stream的邂逅