GPU基本介绍与各GPU性能、价格比较
1 GPU基本概念
1.1 CUDA
CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。
CUDA核心数量决定了GPU并行处理的能力,在深度学习、机器学习等并行计算类业务下,CUDA核心多意味着性能好一些。
1.2 Tensor(张量) 内核
CUDA是NVIDIA推出的统一计算架构,NVIDIA过去的几乎每款GPU都有CUDA Core,而Tensor Core是最近几年才有的,Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值,而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。
1.3 TFLOPS
FLOPS,即每秒浮点运算次数(亦称每秒峰值速度)是每秒所执行的浮点运算次数(英文:Floating-point operations per second;缩写:FLOPS)的简称,被用来评估电脑效能,尤其是在使用到大量浮点运算的科学计算领域中。
1.4 显存容量
显存容量:其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量大小决定了GPU能够加载的数据量大小。(在显存已经可以满足客户业务的情况下,提升显存不会对业务性能带来大的提升。在深度学习、机器学习的训练场景,显存的大小决定了一次能够加载训练数据的量,在大规模训练时,显存会显得比较重要。
1.5 显存位宽
显存位宽:显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大,这是显存的重要参数之一。
2 GPU架构
- 第一代是2006年推出的G80架构,CUDA的元年;
- 第二代是2008年推出的GT200架构(类似G80);
- 第三代GPU架构Fermi,2010年3月27日英伟达发布的一个显卡架构,支持CUDA;
- Kepler架构在2012推出;
- Maxwell架构在2014年被推出。和上一代Kepler架构相同,采用的也是28nm工艺;
- Pascal架构在2016年3月被推出,采用16nm和14nm的工艺;
- Volta架构:2017年5月。Tensor Core的引入。
- Turing架构在2018年9月的SIGGRAPH正式发布。和Volta相同,Turing也基于TSMC 12nm工艺完成生产。从AI计算的角度,Turing主要面向推理场景。
- Ampere架构在2020年5月发布
3 英伟达GPU类别
gpu架构:Tesla、Fermi、Kepler、Maxwell、Pascal
芯片型号:GT200、GK210、GM104、GF104等
显卡系列:GeForce-家庭娱乐、Quadro-工作站、Tesla-服务器
GeForce显卡型号:G/GS、GT、GTS、GTX、RTX
显卡系列在本质上并没有什么区别,只是NVIDIA希望区分成三种选择,GeFore用于家庭娱乐,Quadro用于工作站,而Tesla系列用 于服务器。Tesla的k型号卡为了高性能科学计算而设计。
GeForce的显卡型号是不同的硬件定制,越往后性能越好,时钟频率越高显存越大,即G/GS<GT<GTS<GTX<RTX。
GTX 到RTX:RTX20显卡采用的“图灵”架构引入了RT计算单元,使其光线追踪性能超越上一代显卡的六倍,拥有了即时处理游戏光追的条件,NVIDIA认为这是一个划时代的进化,于是果断把沿用多年的“GTX”改名为“RTX”。
4 独立GPU市场情况
Jon Peddie Research(JPR)发布了新的GPU市场数据统计报告。在台式机和笔记本电脑使用的独立显卡(gpu)中,英伟达(NVIDIA)占据了81%的市场份额,而AMD是19%。英特尔公司主要是在集成GPU上占有市场。
5 各GPU比较
下表价格是2022年2月28日京东查的价格,基本上价格越贵性能越好,虽然价格炒高了很多:
GPU基本介绍与各GPU性能、价格比较相关推荐
- gpu服务器各硬件的全面认识ppt,GPU服务器介绍.ppt
文档介绍: --杨跃江2018.3.29宝德GPU服务器介绍Q4'18Q3'19Q2'18Q3'18Q1'18Q2'19Q1'19通用双路服务器Q4'19PR4764GW双路4U4GPUPR2764G ...
- RK3588 CPU GPU DDR NPU定频和性能模式设置
RK3588 CPU GPU NPU DDR定频和性能模式设置方法 文章目录 RK3588 CPU GPU NPU DDR定频和性能模式设置方法 查看RK3588 CPU GPU DDR NPU的频率 ...
- matlab win10 gpu加速,win10怎么开启gpu加速有用吗 GPU硬件加速设置方法介绍
win10怎么开启gpu加速有用吗 GPU硬件加速设置方法介绍 作为Windows 10的一项重要功能,微软在分享了GPU硬件加速细节后,现在还为大家送上了开启它的技巧,对于中低端设备来说,提升效果还 ...
- 训练神经网络gpu占用率低,外接gpu 训练神经网络
为什么要用GPU来训练神经网络而不是CPU? 许多现代神经网络的实现基于GPU,GPU最初是为图形应用而开发的专用硬件组件.所以神经网络收益于游戏产业的发展. 中央处理器(central proces ...
- gpu浮点计算能力floaps_聊聊 GPU 峰值计算能力
1.前言 2020 年 5 月 14日,在全球疫情肆虐,无数仁人志士前赴后继攻关新冠疫苗之际,NVIDIA 创始人兼首席执行官黄仁勋在自家厨房直播带货,哦不对应该是 NVIDIA GTC 2020 主 ...
- 服务器开虚拟机总是gpu满载,vSphere 环境机器学习 GPU 加速方案选型
GPU 已经成为支撑 AI 应用的一种关键计算加速设备,GPU 的多处理器架构非常适合用来加快深度神经网络应用中的大量矩阵运算过程.大量实测数据表明,跟通用处理器相比,GPU 在运行深度神经网络时具有 ...
- re修改gpu频率_NVSMI监控GPU使用情况和更改GPU状态系列命令总结分享
1 NVIDIA-SMI介绍nvidia-smi简称NVSMI,提供监控GPU使用情况和更改GPU状态的功能,是一个跨平台工具,它支持所有标准的NVIDIA驱动程序支持的Linux发行版以及从Win ...
- Synchronizing CPU and GPU Work 同步CPU和GPU工作
Synchronizing CPU and GPU Work 同步CPU和GPU工作 该节对应源代码(经优化可直接运行)请移步下载资源,搜索如上标题即可. 本文介绍了在Metal程序中,同时异步运行的 ...
- OpenCV之gpu 模块. 使用GPU加速的计算机视觉:GPU上的相似度检测(PNSR 和 SSIM)
GPU上的相似度检测(PNSR 和 SSIM) 学习目标 在 OpenCV的视频输入和相似度测量 教程中我们已经学习了检测两幅图像相似度的两种方法:PSNR和SSIM.正如我们所看到的,执行这些算法需 ...
最新文章
- 人工智能入门:keras的example文件解析
- sqlmap写文件为空之谜
- mandatory oracle 字段,Oracle 数据库需要在2019年April之前Mandatory升级的说明
- 将完整的XP(非PE)安装到U盘
- 调试某游戏副本中的加亮提示信息思路
- import pandas as pd什么意思_Pandas万花筒:让绘图变得更美观
- Springboot starter开发之traceId请求日志链路追踪
- 几步教你用 Python 制作一个 RPA 机器人!
- 【PHP内核剖析】一、PHP基本架构
- C语言——机器平台对强制类型转换的影响
- 一个Java程序员对2011年的回顾
- ADAMS2017AMESim2016联合仿真 设置教程及注意事项
- ps投影怎么做之教程:人像投影和物体长投影制作
- 15款android设备上的代码编辑器
- Android App瘦身实战
- axure rp8 添加动态面板_Axure8怎么使用动态面板?Axure8的使用教程
- android的A/B到底是什么?OTA升级又是什么?
- Facade - 外观模式
- 南京工业大学计算机科学与技术研究生调剂,南京工业大学计算机科学与技术学院硕士研究生考试复试名单...
- OPPO 2020届全球校园招聘启动