文章目录

  • 功耗:CPU的人体极限
  • 并行优化,阿姆达尔定律
  • 总结

CPU性能中,程序的CPU执行时间公式如下

程序的 CPU 执行时间 = 指令数 × CPI × Clock Cycle Time

提升计算机的性能,从指令数、CPI以及CPU主频入手。

功耗:CPU的人体极限

奔腾 4 的 CPU 主频从来没有达到过 10GHz,最终它的主频上限定格在 3.8GHz,是因为它的功耗问题

一个 3.8GHz 的奔腾 4 处理器,满载功率是 130 瓦,CPU 安在手机里面,不考虑屏幕内存之类的耗电,这个 CPU 满载运行 45 分钟,充电宝里面就没电了。

iPhone X 使用 ARM 架构的 CPU,功率则只有 4.5 瓦左右。

CPU(被叫作超大规模集成电路(Very-Large-Scale Integration,VLSI))。这些电路都是一个个晶体管组合成的。

CPU 在计算,其实就是让晶体管里面的“开关”不断地去“打开”和“关闭”,来组合完成各种运算和功能。想要计算得快,

  • 增加密度。在 CPU 里,同样的面积里面,多放一些晶体管
  • 提升主频。让晶体管“打开”和“关闭”得更快一点

这两者,都会增加功耗,带来耗电和散热的问题。

CPU里能够放下的晶体管数量和晶体管的开关频率都是有限的,CPU的功率公式如下:

功耗 ~= 1/2 ×负载电容×电压的平方×开关频率×晶体管数量

提升性能的时候,需要不断增加晶体管的数量,同样面积下要多放一些晶体管,也即是把晶体管造的小一点,这个就是平时所说的制程,比如28nm。

功耗太多,会导致CPU散热跟不上,这个时候需要减低电压,功耗是和电压的平方成正比,电压下降1/5,功耗变为原来1/25。

并行优化,阿姆达尔定律

不是所有问题,都可以通过并行提高性能来解决,需要满足以下几个条件

  • 需要进行的计算,本身可以分解成为几个可以并行的任务。
  • 分解好的问题解决完之后,能够将结果汇总在一起
  • 汇总阶段,没有办法并行执行,需要顺序执行。

对于一个程序优化之后,处理器并行运算之后效率提升的情况,就是阿姆达尔定律,可以用公式

优化后的执行时间 = 受优化影响的执行时间 / 加速倍数 + 不受影响的执行时间

总结

  • 加速大概率事件。深度学习整个计算过程中,99% 都是向量和矩阵计算,所以通过用GPU代替CPU,大幅提升深度学习模型训练的过程。
  • 通过流水线提高性能。现代 CPU 里是如何通过流水线来提升性能的,以及过长的流水线会带来什么新的功耗和效率上的负面影响。
  • 通过预测提高性能。预先猜测下一步该干什么,而不是等上一步运行的结果,提前进行运算,也是让程序跑得更快一点的办法。

穿越功耗墙,从哪些方面提升性能?相关推荐

  1. 04 | 穿越功耗墙,我们该从哪些方面提升“性能”?

    04 | 穿越功耗墙,我们该从哪些方面提升"性能"? 一直以来都知道自己有关计算机底层的知识不是不扎实,前段时间跟着大佬们推荐在[极客时间]买了 徐文浩 老师的专栏 深入浅出计算机 ...

  2. 【04】穿越功耗墙,我们该从哪些方面提升“性能”?

    [计算机组成原理]学习笔记--总目录 [04]穿越功耗墙,我们该从哪些方面提升"性能"? 前言 一.功耗:CPU 的"人体极限" 二.并行优化,理解阿姆达尔定律 ...

  3. 深入浅出计算机组成原理(四)——穿越功耗墙,我们该从哪些方面提升“性能”?

    文章目录 功耗:CPU 的"人体极限" 并行优化,理解阿姆达尔定律 总结延伸 补充阅读 课后思考 上一讲,在讲 CPU 的性能时,我们提到了这样一个公式: 程序的 CPU 执行时间 ...

  4. 04穿越功耗墙_怎么提升性能笔记

    提升CPU性能 提高时钟周期时间 增加晶体管密度(单位融载率).提升主频(开关速度) 提升的限制.阻碍条件--功耗 3.8GHz崩腾4处理器,满载功率130瓦,一个能上飞机的充电宝容量上限100瓦时, ...

  5. 计算机组成原理 | 穿越功耗墙,我们该从哪些方面提升“性能”?

    上一讲,在讲 CPU 的性能时,我们提到了这样一个公式: 程序的 CPU 执行时间 = 指令数×CPI×Clock Cycle Time 这么来看,如果要提升计算机的性能,我们可以从指令数.CPI 以 ...

  6. 深入计算机组成原理(四)穿越功耗墙,我们该从哪些方面提升“性能”?

    上一讲,在讲CPU的性能时,我们提到了这样一个公式: 程序的CPU执行时间 = 指令数 x CPI x Clock Cycle Time 这样来看,如果要提升计算机的性能,我们可以从指令数.CPI以及 ...

  7. 深入浅出计算机组成原理04 | 穿越功耗墙,我们该从哪些方面提升“性能”

    功耗:CPU 的"人体极限" 我们的 CPU,一般都被叫作超大规模集成电路(Very-Large-Scale Integration,VLSI).这些电路,实际上都是一个个晶体管组 ...

  8. 深入浅出计算机组成原理04-穿越功耗墙,我们该从哪些方面提升“性能”?

    上一讲,在讲 CPU 的性能时,我们提到了这样一个公式: 程序的 CPU 执行时间 = 指令数×CPI×Clock Cycle Time 这么来看,如果要提升计算机的性能,我们可以从指令数.CPI 以 ...

  9. 核心频率个加速频率_RTX 3080超频研究:功耗墙和频率最关键,高频稳定看用料...

    RTX 3080已经发售了一段时间,当然我们都相信实际上没有多少用户能拿到这款显卡,至少在NVIDIA芯片产能还没有完全正常之际,可能多数用户还需要再等待一段时间才行.不过对于RTX 3080这款显卡 ...

最新文章

  1. 斯坦福大学2014机器学习教程中文笔记目录
  2. c语言编程矩阵乘积的程序,c语言矩阵相乘
  3. 【渝粤教育】广东开放大学 计算机思维 形成性考核 (29)
  4. mfc函数调用堆栈溢出_01 JavaScript 调用堆栈
  5. 声笔码和声笔数码单字效率分析
  6. css实现返回顶部,实现返回顶部效果
  7. 安卓游戏等待服务器响应时间,电竞显示器响应时间原理及最佳游戏设置方法
  8. 迁移网易博客到csdn
  9. Windows——打印机错误(操作无法完成(错误 0x000006ba)。本地打印机后台处理程序服务没有运行。请重新启动打印机后台处理程序或重新启动计算机。)解决方案
  10. 北京计算机游戏专业排名2015,2015大学专业排行榜_大学最佳专业排行榜_游戏专业怎么样_52PK游戏网...
  11. Nacos配置服务原理
  12. [C] 数组指针、指针数组及数组传参
  13. 2022华为软挑比赛(初赛笔记)
  14. 业务需求调研经验分享
  15. c语言if else嵌套,C语言if else嵌套
  16. 将InfoSphere Guardium数据编辑与IBM分类模块集成
  17. Unity 使用NavMesh实现简易的摇杆功能
  18. 新工科建设形势下的计算机类专业人才培养方案
  19. docker ubuntu容器安装ping工具
  20. 开源,选择Google Code还是Sourceforge【转】

热门文章

  1. 深度学习与自然语言处理教程(4) - 句法分析与依存解析(NLP通关指南·完结)
  2. 智能对话系统:Unit对话API
  3. 智能对话系统评测标准
  4. 鸿蒙系统正式版在哪下载,鸿蒙系统正式版安卓app下载-鸿蒙系统正式版最新下载v1.0_求知软件网...
  5. 想用 Google 搜索引擎吗,看这篇文章吧!!!
  6. 【怎样制作ppt课件】Focusky教程 | 设置插入的视频循环播放
  7. AD怎么输入坐标_CAD入门基础小知识(二)捕捉栅格绘制直线amp;使用坐标绘图...
  8. 在船舶共轨实验平台上使用Mbed LPC1768
  9. Centos服务器上使用移动硬盘(NTFS分区)
  10. 尚硅谷的Netty介绍(一)