简单的聊聊 NPU ,Tensor core
刚刚,有个前同事问我tensor core到底是个啥
在我接触过的项目和芯片里,tensor core就是矩阵乘法器。
NPU英文全称是Neural network Processing Unit, 中文大概得叫神经网络处理单元吧。
有篇文章是介绍这个的,
CPU/GPU/TPU/NPU傻傻分不清楚 - 知乎
看完这个介绍,或许可以明白一些概念,但是还是不明白本质
现在我们大谈算力,在计算机的世界里可以按照维度把运算分为,标量运算,矢量运算,矩阵运算
我们在小学的时候学习标量运算,初中高中学习矢量运算,大学里学习矩阵运算。
简单或者本质的理解就是,
- CPU的主要计算单元是标量运算,当然后面出来的SSD,AVX指令不包含在里面
- GPU的主要计算单元是矢量运算,现在一般都是SIMD,然后多个SIMD组成MIMD
- NPU的主要计算单元是矩阵运算. 矩阵运算器就是tensor core.
当然现在NV新出的高端GPU里面都包含了 tensor core. 高端的CPU里面也包含了矢量运算,甚至也包含了矩阵运算。
再来聊聊为啥这么多人在做NPU
- 有前景,有未来,算力就是未来,这肯定没错
- 用于推理的NPU和CPU,GPU相比,相对比较好做,当然用于训练的NPU,生态系统和技术难度都是非常大。
- 资本多,又是新东西,好找投资,好说梦
当然,要做好NPU肯定是不容易的事情
- SOC的架构,存储系统的设计(Cache,SRAM,DRAM),片内互联技术,片与片互联,计算单元设计,控制单元设计,Slice设计,每个部分都有非常非常多的东西可以研究
- 软件设计,像cuda一样的系统软件,这是NV的核心技术。看看大芯片公司庞大的软件开发团队。
- 生态系统建设
最后总结一句,做芯片真的需要耐心。
简单的聊聊 NPU ,Tensor core相关推荐
- NVIDIA深度学习Tensor Core性能解析(下)
NVIDIA深度学习Tensor Core性能解析(下) DeepBench推理测试之RNN和Sparse GEMM DeepBench的最后一项推理测试是RNN和Sparse GEMM,虽然测试中可 ...
- Tensor Core技术解析(上)
Tensor Core技术解析(上) NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构--Turing(图灵),黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的 ...
- 英伟达A100 Tensor Core GPU架构深度讲解
计算机视觉研究院专栏 作者:Edison_G 现代云数据中心运行的计算密集型应用的多样性推动了NVIDIA GPU加速云计算的爆发.这种密集的应用包括人工智能深度学习训练和推理.数据分析.科学计算.基 ...
- 深入理解混合精度训练:从 Tensor Core 到 CUDA 编程
背景 近年来,自动混合精度(Auto Mixed-Precision,AMP)技术在各大深度学习训练框架中作为一种使用简单.代价低廉.效果显著的训练加速手段,被越来越广泛地应用到算法研究中. 然而大部 ...
- Tensor Core有多牛?
发布时间: 17-12-2820:52智能行业媒体官方账号,鲲鹏计划获奖作者, 今年5月,在加州圣何塞举办的 2017 GPU技术大会(GTC 2017)上,英伟达 CEO 黄仁勋发布了使用最新一代架 ...
- NVIDIA深度学习Tensor Core性能解析(上)
NVIDIA深度学习Tensor Core性能解析(上) 本篇将通过多项测试来考验Volta架构,利用各种深度学习框架来了解Tensor Core的性能. 很多时候,深度学习这样的新领域会让人难以理解 ...
- 如何利用 NVIDIA 安培架构 GPU 的新一代 Tensor Core 对计算进行极致加速
时隔三年,英伟达最强芯片 Tesla V100 终于有了继任者,那就是在2020年5月14日, NVIDIA发布的最新GPU A100. GPU A100不仅能实现 1-50 倍的扩展,还让其吞吐性能 ...
- 吞吐性能翻倍!搭载了第三代Tensor Core的A100是怎么做到的?
时隔三年,英伟达最强芯片 Tesla V100 终于有了继任者,那就是在2020年5月14日, NVIDIA发布的最新GPU A100. GPU A100不仅能实现 1-50 倍的扩展,还让其吞吐性能 ...
- Tensor Core加速CUDA矩阵计算
在CUDA编程模型中利用Tensor Core加速矩阵运算 C++ warp矩阵运算利用Tensor Cores来加速 D=A*B+C 形式的矩阵问题. 计算能力 7.0 或更高版本的设备的混合精度浮 ...
最新文章
- 祝贺!又一批清华大学长聘教授,来了!
- linux i2c 设备 操作说明
- 循环队列c语言的实现,循环队列的C语言实现
- poj 2769 感觉♂良好 (单调栈)
- ----vue项目打包之浏览器存在缓存问题----
- SolarWinds 软件出现3个新的严重漏洞
- Markdown编辑器简单总结
- php mysql留言板制作教程_php留言板制作教程
- 中国 AI 天才养成计划:清华姚班和 100 个「张小龙」
- 川农计算机应用基础考试文档,中学生计算机基础考试题库
- Win7下给电脑加域,及遇到的问题。欢迎留言
- 帆软所有销量为0的显示为空值_fineReport网络报表工具使用总结
- 手持6位半电压信号源产品级实现记录(一)
- 【NAT网络地址转换(私网公网地址、静态NAT、动态NAT、NAPT、Easy IP、NAT Server)】-20211215、20211216
- 微信小程序实现商品列表跳转详情页
- 手撸SSO单点登录(五)登录验证-OA系统页面刷新或者跳转新OA系统页面
- Linux双网卡双ip配置
- 数字城市的意义有哪些?如何构建数字城市?
- 敏之澳分享拼多多的宝贝标题要怎么写?
- 什么是随机对照双盲实验