刚刚,有个前同事问我tensor core到底是个啥

在我接触过的项目和芯片里,tensor core就是矩阵乘法器。

NPU英文全称是Neural network Processing Unit, 中文大概得叫神经网络处理单元吧。

有篇文章是介绍这个的,

CPU/GPU/TPU/NPU傻傻分不清楚 - 知乎

看完这个介绍,或许可以明白一些概念,但是还是不明白本质

现在我们大谈算力,在计算机的世界里可以按照维度把运算分为,标量运算,矢量运算,矩阵运算

我们在小学的时候学习标量运算,初中高中学习矢量运算,大学里学习矩阵运算。

简单或者本质的理解就是,

  • CPU的主要计算单元是标量运算,当然后面出来的SSD,AVX指令不包含在里面
  • GPU的主要计算单元是矢量运算,现在一般都是SIMD,然后多个SIMD组成MIMD
  • NPU的主要计算单元是矩阵运算. 矩阵运算器就是tensor core.

当然现在NV新出的高端GPU里面都包含了 tensor core. 高端的CPU里面也包含了矢量运算,甚至也包含了矩阵运算。

再来聊聊为啥这么多人在做NPU

  • 有前景,有未来,算力就是未来,这肯定没错
  • 用于推理的NPU和CPU,GPU相比,相对比较好做,当然用于训练的NPU,生态系统和技术难度都是非常大。
  • 资本多,又是新东西,好找投资,好说梦

当然,要做好NPU肯定是不容易的事情

  • SOC的架构,存储系统的设计(Cache,SRAM,DRAM),片内互联技术,片与片互联,计算单元设计,控制单元设计,Slice设计,每个部分都有非常非常多的东西可以研究
  • 软件设计,像cuda一样的系统软件,这是NV的核心技术。看看大芯片公司庞大的软件开发团队。
  • 生态系统建设

最后总结一句,做芯片真的需要耐心。

简单的聊聊 NPU ,Tensor core相关推荐

  1. NVIDIA深度学习Tensor Core性能解析(下)

    NVIDIA深度学习Tensor Core性能解析(下) DeepBench推理测试之RNN和Sparse GEMM DeepBench的最后一项推理测试是RNN和Sparse GEMM,虽然测试中可 ...

  2. Tensor Core技术解析(上)

    Tensor Core技术解析(上) NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构--Turing(图灵),黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的 ...

  3. 英伟达A100 Tensor Core GPU架构深度讲解

    计算机视觉研究院专栏 作者:Edison_G 现代云数据中心运行的计算密集型应用的多样性推动了NVIDIA GPU加速云计算的爆发.这种密集的应用包括人工智能深度学习训练和推理.数据分析.科学计算.基 ...

  4. 深入理解混合精度训练:从 Tensor Core 到 CUDA 编程

    背景 近年来,自动混合精度(Auto Mixed-Precision,AMP)技术在各大深度学习训练框架中作为一种使用简单.代价低廉.效果显著的训练加速手段,被越来越广泛地应用到算法研究中. 然而大部 ...

  5. Tensor Core有多牛?

    发布时间: 17-12-2820:52智能行业媒体官方账号,鲲鹏计划获奖作者, 今年5月,在加州圣何塞举办的 2017 GPU技术大会(GTC 2017)上,英伟达 CEO 黄仁勋发布了使用最新一代架 ...

  6. NVIDIA深度学习Tensor Core性能解析(上)

    NVIDIA深度学习Tensor Core性能解析(上) 本篇将通过多项测试来考验Volta架构,利用各种深度学习框架来了解Tensor Core的性能. 很多时候,深度学习这样的新领域会让人难以理解 ...

  7. 如何利用 NVIDIA 安培架构 GPU 的新一代 Tensor Core 对计算进行极致加速

    时隔三年,英伟达最强芯片 Tesla V100 终于有了继任者,那就是在2020年5月14日, NVIDIA发布的最新GPU A100. GPU A100不仅能实现 1-50 倍的扩展,还让其吞吐性能 ...

  8. 吞吐性能翻倍!搭载了第三代Tensor Core的A100是怎么做到的?

    时隔三年,英伟达最强芯片 Tesla V100 终于有了继任者,那就是在2020年5月14日, NVIDIA发布的最新GPU A100. GPU A100不仅能实现 1-50 倍的扩展,还让其吞吐性能 ...

  9. Tensor Core加速CUDA矩阵计算

    在CUDA编程模型中利用Tensor Core加速矩阵运算 C++ warp矩阵运算利用Tensor Cores来加速 D=A*B+C 形式的矩阵问题. 计算能力 7.0 或更高版本的设备的混合精度浮 ...

最新文章

  1. 祝贺!又一批清华大学长聘教授,来了!
  2. linux i2c 设备 操作说明
  3. 循环队列c语言的实现,循环队列的C语言实现
  4. poj 2769 感觉♂良好 (单调栈)
  5. ----vue项目打包之浏览器存在缓存问题----
  6. SolarWinds 软件出现3个新的严重漏洞
  7. Markdown编辑器简单总结
  8. php mysql留言板制作教程_php留言板制作教程
  9. 中国 AI 天才养成计划:清华姚班和 100 个「张小龙」
  10. 川农计算机应用基础考试文档,中学生计算机基础考试题库
  11. Win7下给电脑加域,及遇到的问题。欢迎留言
  12. 帆软所有销量为0的显示为空值_fineReport网络报表工具使用总结
  13. 手持6位半电压信号源产品级实现记录(一)
  14. 【NAT网络地址转换(私网公网地址、静态NAT、动态NAT、NAPT、Easy IP、NAT Server)】-20211215、20211216
  15. 微信小程序实现商品列表跳转详情页
  16. 手撸SSO单点登录(五)登录验证-OA系统页面刷新或者跳转新OA系统页面
  17. Linux双网卡双ip配置
  18. 数字城市的意义有哪些?如何构建数字城市?
  19. 敏之澳分享拼多多的宝贝标题要怎么写?
  20. 什么是随机对照双盲实验

热门文章

  1. Kubernetes 安全策略:保护您的数据仓库并阻止黑客
  2. C# 批量重命名音乐(歌手-歌曲名称形式)
  3. iPhoneX截图如何带“刘海”和圆角
  4. 故障:fork failed:Resource Temporarily Unavailable解决方案
  5. 读稻盛和夫《干法》后的几点感悟
  6. python如何对excel两个单元格求乘积_python如何合并多个excel单元格?
  7. 国外几个主流的CMS系统
  8. iphone无法使用facetime显示无网络问题
  9. Linux压缩/解压命令
  10. 2010经典个性签名