芯片算力

1、TOPS：（Tera/Trillion Operations Per Second）

2、FLOPS（floating-point operations per second）

3、FLOPs（FLoating point OPerations（s表复数）

4、MAC(Multiply Accumulate)

5、DMIPS（Dhrystone Million Instructions Per Second）

芯片介绍

1、分类

2、各芯片区别

3、其他芯片

给学习做个总结，写的不对处希望大家指出。

芯片算力

1、TOPS：（Tera/Trillion Operations Per Second）

①每秒运行10^12（万亿）次，是指GPU的乘积累加矩阵处理器的运算能力：

②影响TOPS的算力因素：

取决于温度与电压，设计电路时，仿真或EDA给出3种分析状态：

Ⅰ：WCS：最坏状态，过程慢，温度高，电压低；

Ⅱ：TYP：标准状态，标准过程，额定温度，额定电压；

Ⅲ：BCF：最佳状态，过程快，低温，高压；

Ⅳ：TOPS宣称的算力都是在BCF下结果；

③TOPS理论值算法：

Ⅰ：TOPS真实值取决于内部SRAM带宽、外部DRAM带宽、指令集和模型优化成都，一般也就是50%的使用率；

Ⅱ：TOPS理论值取决于运算精度、MAC数量和运行频率，比如INT8（8位整数）的MAC数量在FP16（16位半精度浮点数）下减少一半，在FP32（32位单精度浮点数）下再减少一半，FP64（64位双精度浮点数），（假如有512个MAC，1GHz主频，INT8下的算力=512*2（2表示一个MAC为1次乘法和一次加法，为2次运算操作）*1GHz=1TOPS，则FP16精度下，就是0.5TOPS，FP32为0.25TOPS，FP64为0.125TOPS）；

④、算力选择：软件一体化设计时，要考虑GPU还是CPU合适，网络模型一次要多少内存且同时要多少MAC，由此设计芯片，如果选了芯片，那么算法怎么兼容，是否减少内存访问来提高利用率，还是迁移CPU基于规则算法改为GPU的深度学习实现。

⑤TOPS的其他单位延伸：

Ⅰ：GOPS（Giga Operations Per Second）：处理器每秒进行十亿次（10^9）操作；

Ⅱ：MOPS（Million Operation Per Second）：处理器每秒进行一百万次（10^6）操作；

注意：TOPS只说明每秒万亿次操作，要结合了数据类型精度（INT8，FP16等）才能与FLOPS转换。

2、FLOPS（floating-point operations per second）

①每秒所执行的浮点运算次数，表示运算速度；

②大部分处理器会用专门的浮点运算器（FPU）来处理小数，FLOPS就是FPU的执行速度；

③单位换算：

Ⅰ：MFLOPS（megaFLOPS）：每秒一百万次（10^6）的浮点运算；

Ⅱ：GFLOPS（gigaFLOPS）：每秒十亿（10^9）次的浮点运算；

Ⅲ：TFLOPS（teraFLOPS）：每秒一万亿（10^12）次的浮点运算；

Ⅳ：PFLOPS（petaFLOPS）：每秒一千万亿（10^15）次的浮点运算；

Ⅴ：EFLOPS（exaFLOPS）：每秒一百亿亿（10^18）次浮点运算

3、FLOPs（FLoating point OPerations（s表复数）

①浮点运算次数，表示运算量，区别于FLOPS；

②用来评价深度学习模型的运算量，通过FLOPs可以换算出某已知参数在芯片上跑一次模型时间；

③1FLOPs的单位是FP32。

4、MAC(Multiply Accumulate)

①表示乘加运算；

②1MAC=a+b*c=2OP；

③MAC矩阵是AI芯片的核心。

5、DMIPS（Dhrystone Million Instructions Per Second）

①每秒处理的百万级的机器语言指令数；

②用跑分算法Dhrystone来测试CPU对整数计算的性能，输出结果是每秒运行Dhrystone的次数，即每秒钟迭代主循环的次数，比MIPS（million instructions per second 每秒钟执行的指令数）更有意义。

芯片介绍

1、分类

①通用芯片（灵活性好）：CPU/MPU，GPU，DSP，就像“银行柜员”；
②定制化芯片（效率高）：FPGA，ASIC，就像“银行ATM机器”。

2、各芯片区别

①CPU（中央处理器）与GPU（图形处理单元/显卡）区别在于核数，CPU（CPU的运算核心一般是ARM核，ARM是可以支持Android和iOS的架构）核数不超2位数，每个核有大缓存能处理复杂的逻辑运算控制，CPU擅长复杂计算步骤和复杂数据依赖的计算任务，更适合串行算法，如分布式计算、数据压缩、人工智能、物理模拟等；GPU的核数远远超过CPU，GPU有几百个核，但每个核的缓存相对小且处理简单的逻辑运算控制，更适合并行算法，GPU计算常用的数据类型有FP32、FP16、INT8，处理图像运算等；CPU和GPU都有工作频率，工作频率越高，性能越高，同时发热和功耗越高；
②DSP（数字信号处理芯片）：特殊的CPU，针对视频解编码，通讯信号的处理优于CPU，处理语音解编码等，拍照以及回显（JPEG的编解码）、录像以及回放（Video 的编解码）、H.264的编解码等，DSP是将模拟信号转为数字信号，DSP目标是：图像信息的实用性，即：图像的识别、录制、压缩、保存等等，DSP包含ISP，相对于ISP，DSP的功能更强大。

注意ISP（图像信号处理器）：用来处理图像传感器经过CCD或CMOS的形式采集的输出数据，如做AEC（自动曝光控制）、AGC（自动增益控制）、AWB（自动白平衡）、色彩校正、Lens Shading、Gamma 校正、祛除坏点、Auto Black Level、Auto White Level 等功能的处理，ISP目标是：为了图像信息的丰富性，即：图像的完整性、色彩的丰富性等等；
③FPGA：半定制化的可编程电路，省去了CPU的取指和译码，因此重复运行相同代码效率高，FPGA上大部分是计算单元ALU，但也可以控制被编程的指令，未编程过的指令难以控制，FPGA可以实现一个DSP，GPU甚至是CPU功能；
④ASIC：完全固化的IC，没有具体定义，可以是除单片机、DSP、FPGA之类能叫出名之外的IC，ASIC也发展为半定制专用集成电路，接近FPGA，FPGA是ASIC中的一部分
⑤MCU：微控制器/单片机，不是微处理器（MPU是微处理器），他是在芯片上集成了CPU、IO、定时器、看门狗、flash等；
⑥SOC：系统级芯片，通过HDL语言在SOC内集成各种功能芯片，可能集成GPS、WiFi、蓝牙、DSP等多种不同的SOC；
⑦APU：也叫MAP，应用处理器，类似于SOC，集成了CPU、DSP、ASIC等，也是用ARM，适用于便携式消费类电子，如手机、电脑、智能穿戴、汽车智能显示屏等；
⑧NPU：神经网络处理器，也就是AI芯片，具备智能和学习特性，会模仿人的大脑神经网络，用于人工智能算法，适合处理视频、图像类海量多媒体数据；
⑨DPU：深度学习处理器，基于Xilinx可重构特性的FPGA芯片，DPU可以机器学习、安全、电信和存储等应用；
⑩TPU：张量处理器，由谷歌专门为加速深层神经网络运算能力而研发的一款芯片，也是一款ASIC；
⑪BPU：大脑处理器，地平线机器人以BPU来命名自家的AI芯片，用来支撑深度神经网络，一旦生产无法再编，必须在CPU控制下使用，BPU已被地平线申请了注册商标。

3、其他芯片

APU：Accelerated Processing Unit, 加速处理器，AMD公司推出加速图像处理芯片产品；

EPU：Emotion Processing Unit 情感处理器，号称是全球首款情绪合成（emotion synthesis）引擎，可以让机器人具有情绪；

FPU：Floating Processing Unit 浮点计算器，浮点单元；

HPU：Holographics Processing Unit 全息图像处理器，Microsoft 专为自家 Hololens 应用开发的；

IPU：Intelligence Processing Unit，智能处理器， Deep Mind投资的Graphcore公司出品的AI处理器产品；

KPU：Knowledge Processing Unit，知识处理器，嘉楠耘智（canaan）号称 2017 年将发布自己的 AI 芯片 KPU；

OPU：Optical-Flow Processing Unit。光流处理器；

PPU：Physical Processing Unit。物理处理器，物理计算，就是模拟一个物体在真实世界中应该符合的物理定律；

QPU：Quantum Processing Unit，量子处理器；

UPU：Universe Processing Unit。宇宙处理器；

VPU：Vector Processing Unit 矢量处理器，Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心；

WPU：Wearable Processing Unit，可穿戴处理器，一家印度公司Ineda Systems公司推出的可穿戴片上系统产品，包含GPU/MIPS CPU等IP；

XPU：百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速，含256核，百度公开了其 FPGA Accelerator 的名字，就叫 XPU；

ZPU：由挪威Zylin 公司推出的一款32位开源处理器。

资料参考:

数字芯片之系统级芯片SoC - 知乎

数字芯片之应用处理器APU（上） - 知乎

GPU,CPU,SOC,DSP,FPGA,ASIC,MCU,MPU，GPP，ECU都是啥子芯片？ - 知乎

通俗来理解ARM芯片内核，架构，指令集，软核和硬核之间的关系 - 百度文库

一文搞懂CPU、MPU、MCU、SOC的联系与区别-电子发烧友网

芯片模型算力指标TOPS FLOPS MAC MACC MADD关系_芯片算力tops对比_李皮皮的悲惨生活的博客-CSDN博客

百度安全验证

ISP和DSP的区别_LIAO_ww的博客-CSDN博客_dsp isp

各种芯片简述以及算力解释：相关推荐

NOR FLASH读、写、擦原理与实现（1）——性能简述与术语解释
这段时间,由于项目需要,我得对FLASH的运作原理做初步的理解,并且对其实现方法进行研究.我将通过几篇博客将我的学习历程记录下来,并且希望跟诸位有缘看到博客的人共同讨论.学习.以下笔记将以芯片&quo ...
比特大陆发布第三代AI芯片，INT8算力达17.6Tops
9月17日,福州城市大脑暨闽东北信息化战略合作发布会在数字中国会展中心隆重召开.本次发布会上,比特大陆正式推出了第三代AI芯片BM1684,同时也宣布BM1684将作为底层算力,赋能福州城市大脑,助力 ...
存储器芯片的扩展例题解释
解释若存储器芯片的容量为16k * 8位,第一个数字表示单个(逻辑)Bank芯片字个数(16K=2 ^ 4 * 2 ^10 ),第二个表示芯片字的位数即数据宽度(8) 第一个表示地址,第二个表示存储 ...
技术解读倚天 ECS 实例 — Arm 芯片的 Python-AI 算力优化
深度学习技术在图像识别.搜索推荐等领域得到了广泛应用.近年来各大 CPU 厂商也逐渐把 AI 算力纳入了重点发展方向,通过<Arm 芯片 Python-AI 算力优化>我们将看到龙蜥社区 ...
芯片优缺点_算力至上？AI芯片大对决
作者 | 老石谈芯的老石来源 | 老石谈芯(ID:laoshi_tanxin) 头图 | CSDN 下载自东方IC 目前,全世界超过90%的数据都是在过去的两三年之内产生的.随着人工智能.自动驾驶. ...
FTDI通用转USB芯片简述
FTDI公司的FT2232系列芯片可实现USB与异步串行口RS232/RS485.同步串行总线IIC/SPI/JTAG相互通信,市场占有率,使用普遍. FTDI芯片有两种类型的驱动:virtual C ...
芯片TOPS的真实性 - 解释 ( 标量 ,矢量, 张量)
宣传的TOPS往往都是运算单元的理论值,而非整个硬件系统的真实值. 真实值更多取决于内部的SRAM.外部DRAM.指令集和模型优化程度.最糟糕的情况下,真实值是理论值的1/10算力甚至更低,一般也就5 ...
芯片测试的术语解释（FT、CP），持续更新....
本篇是个人学习知识笔记, 一.芯片的生产流程二.芯片生产过程中涉及到的测试设备三.后道检测中的CP测试和FT测试 1.CP测试: CP测试,英文全称Circuit Probing.Chip Pro ...
算力理解MIPS/DMIPS/MFLOPS/TOPS
参考:各种芯片简述以及算力解释不要太较真自动驾驶算力(TOPS) 文章目录一.CPU计算性能指标 1. MIPS 2. DMIPS(干石MIPS) 3. FLOPS/MFLOPS/GFLOPS/T ...

各种芯片简述以及算力解释：

芯片算力

1、TOPS：（Tera/Trillion Operations Per Second）

2、FLOPS（floating-point operations per second）

3、FLOPs（FLoating point OPerations（s表复数）

4、MAC(Multiply Accumulate)

5、DMIPS（Dhrystone Million Instructions Per Second）

芯片介绍

1、分类

2、各芯片区别

3、其他芯片

各种芯片简述以及算力解释：相关推荐

最新文章

热门文章