背景

现在AI火热,带动了异构计算的发展,让GPU, FPGA这类加速芯片从辅助设备逐步进入了主流计算设备的行列,开始挑战传统CPU的绝对统治地位,那么我们为什么经常听说GPU, FPGA相对于CPU计算能力要强的多,原因是为什么呢?

芯片设计

CPU在芯片设计上,绝大部分空间其实并不属于ALU(算数逻辑单元)。CPU作为通用处理器,除了满足计算要求,为了更好的响应人机交互的应用,它要能处理复杂的条件和分支,以及任务之间的同步协调,所以芯片上需要很多空间来实现分支预测与优化(control), 保存各种状态(cache)以降低任务切换时的延时。

GPU则走了一个极端,它在芯片设计上突出计算输出最大化,几乎将所有的空间都给了ALU,所以对于AI,HPC,图形渲染这样简单粗暴的浮点矩阵运算,GPU的优势肯定就非常明显了。

峰值浮点

CPU

一颗E5 2680 V4, 14核心,3G左右频率,那么其峰值浮点能力为3X14x32(32是V4处理器支持SIMD的速算因子,即一个时钟周期内能做32次浮点计算)= 1.34Tflops.

Intel V3 Haswell架构处理器,支持AVX256, 即每个时钟周期能做(256/32)x2=16次单精度浮点,x2是因为每个时钟CPU能同时发出一次加法和一次乘法指令。

Intel V4 Broadwell支持FMA(融合乘加)指令,即a*b+c, 所以再x2=32。

Intel V5 Skylake支持AVX512, 所以再x2=64。

GPU

比如是Tesla P100, 3584个cuda core, 核心频率大概是1.5G左右,那么其峰值浮点能力为3584x1.5x2(2是GPU的FMA速算因子)= 10Tflops左右,即使是便宜多的Tesla P4, 峰值浮点也能到5Tflops。

FPGA

比如xilinx的ultrascale, 我查了下,它有1,440 个DSP based加法器,频率为 0.5G,还有6,743个Logic based的加法器,频率为0.6G,1440x0.5+6743x0.6=4.5Tflops。

价格上看, 大概可以认为,E5 2680 V4 = Tesla P4 = xilinx ultrascale,所以很清楚了。

转自:

CPU, GPU, FPGA计算能力相关推荐

  1. 中国批准AMD收购赛灵思!苏妈花350亿美元集齐CPU\GPU\FPGA三大芯片业务

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 芯片行业即将迎来一场350亿美元大并购. 收购方AMD,在CPU.GPU上势头正猛:被收购方赛灵思(Xilinx),则是全球第一大FPGA巨头. ...

  2. CPU与CUDA(GPU)的计算能力对比之二: Keras Resnet 运算效率比较

    CPU与CUDA(GPU)的计算能力对比之二: Keras Resnet 运算效率比较 结论: CUDA(GPU : NVIDIA RTX2070 MQ 笔记本版本) 启动后,效率将近是 CPU 单独 ...

  3. gpu浮点计算能力floaps_为何CPU浮点计算能力差,什么是浮点计算,GPU为何擅长浮点计算?...

    GPU比CPU去掉了大量非计算单元(去掉L3, 降低缓存容量,精简控制器,降低分支能力和预测执行能力),增加了通用寄存器.其实CPU的浮点能力并不差,通常来说CPU的整数能力只是CPU浮点能力的2-5 ...

  4. CPU与CUDA(GPU)的计算能力对比之一: Tensorflow矩阵乘

    CPU与CUDA(GPU)的计算能力对比之一: Tensorflow矩阵乘 结论: 1.Tensorflow 矩阵乘场景,CUDA 的效率是 CPU 的 1000 倍以上. 2. 测试过程中: GPU ...

  5. CPU/GPU/TPU/NPU...XPU都是什么意思?

    CPU/GPU/TPU/NPU-XPU都是什么意思? 现在这年代,技术日新月异,物联网.人工智能.深度学习等概念遍地开花,各类芯片名词GPU, TPU, NPU,DPU层出不穷-都是什么鬼?与CPU又 ...

  6. CPU+GPU异构计算完全解析

    原文链接:http://bj.beareyes.com.cn//2/lib/201106/20/20110620416_1.htm 工欲善其事,必先利其器.有一个好的计算工具是必须的! 并行计算:让处 ...

  7. [转]CPU/GPU/TPU/NPU...XPU都是什么鬼

    目录 CPU GPU TPU NPU BPU DPU 其他 XPU 现在这年代,技术日新月异,物联网.人工智能.深度学习等概念遍地开花,各类芯片名词GPU, TPU, NPU,DPU层出不穷..... ...

  8. 嵌入式算法移植优化学习笔记5——CPU,GPU,TPU,NPU都是什么

    嵌入式算法移植优化学习笔记5--CPU,GPU,TPU,NPU都是什么 一.什么是CPU? 二.什么是GPU? 三.什么是NPU? 四.什么是TPU? 附: 随着AI的广泛应用,深度学习已成为当前AI ...

  9. 异构计算(CPU + GPU)编程简介

    异构计算(CPU + GPU)编程简介 1.概念 所谓异构计算,是指CPU+ GPU或者CPU+ 其它设备(如FPGA等)协同计算.一般我们的程序,是在CPU上计算.但是,当大量的数据需要计算时,CP ...

最新文章

  1. win32按钮按下不弹起_荣耀亲选智能恒温电热水壶,宝爸冲奶粉再也不做难了
  2. 博图wincc连接数据块_西门子博途WINCC 可通过创建画面模板提高编程效率
  3. JAVA中String类的intern()方法的作用
  4. “约见”面试官系列之常见面试题第三十八篇之js常见的继承方式(建议收藏)
  5. java socket 读取文件_Java中Socket下载一个文本文件
  6. html.actionlink 锚点,razor - 从@ Html.ActionLink MVC 4将参数传递给控制器
  7. PHP json_decode($json, TRUE) TRUE使数据格式化为Array,而非object
  8. HTML 字体颜色 色号对照表
  9. 赵海平与张宏波谈编程语言
  10. 高红梅:第二章 海明威个人身份的探寻 第一节 性别身份意识与代际关系书写
  11. button图片与文字的布局
  12. python 经典ppt_Python处理PPT文件的实用姿势
  13. win10右键菜单没有新建Excel选项的解决方法
  14. Oracle下的exp/imp
  15. 网络服务NFS文件共享
  16. java6虚拟机_深入理解java虚拟机(六)
  17. Unity3D 2021.1.2F1 发布了。赋国际版本下载地址。
  18. 工程详细记录:超准确人脸检测(带关键点)YOLO5Face C++
  19. 汉枫wifi--HF-LPB120模块驱动
  20. 尚硅谷VUE课程的页签图标问题

热门文章

  1. java for mobil,Windows Mobile上的Java(ME)
  2. flyway最佳生产实践
  3. 北斗由“高大上”转为“接地气” 芯片成国内智能手机标配
  4. 父母脾气暴躁对孩子有哪些影响
  5. 计算机CD_ROM表示中文,CD-ROM是指什么?
  6. 【PS教程】PS照片做旧的方法,证书换照片教程
  7. 虚拟主机管理器WHM的详细介绍
  8. 视觉注意力的循环神经网络模型
  9. vue 项目中页面打印实现(去除页眉页脚)
  10. python读取二进制文件 \xff\xfe \xef\xbb\xbf