一、前言

当今时代,人工智能(AI)正被广泛运用于各式各样的应用上。人工智能的三大支撑是硬件、算法和数据,其中硬件指的是运行 AI 算法的芯片与相对应的计算平台。由于使用场景变多,所需处理的数据量变大,人们的需求也更高,这就使得AI算法必须能够高效的运行在硬件平台上。在硬件方面,目前主要是使用 GPU 并行计算神经网络,同时,还有 FPGA 和 ASIC 也具有未来异军突起的潜能。

GPU称为图形处理器,它是显卡的“心脏”,与 CPU 类似,只不过是一种专门进行图像运算工作的微处理器。GPU 在浮点运算、并行计算等部分计算方面可以提供数十倍乃至于上百倍于 CPU 的性能。不过在应用于深度学习算法时,有三个方面的局限性:

  • 应用过程中无法充分发挥并行计算优势
  • 硬件结构固定不具备可编程性
  • 运行深度学习算法能效远低于 ASIC 及 FPGA。

FPGA称为现场可编程门阵列,用户可以根据自身的需求进行重复编程。与 GPU、CPU 相比,具有性能高、能耗低、可硬件编程的特点。FPGA 比GPU 具有更低的功耗,比 ASIC 具有更短的开发时间和更低的成本。FPGA也有三类局限:

  • 基本单元的计算能力有限;
  • 速度和功耗有待提升;
  • FPGA 价格较为昂贵。

ASIC(Application Specific Integrated Circuit)是一种为专门目的而设计的集成电路。无法重新编程,效能高功耗低,但价格昂贵。近年来涌现出的类似TPU、NPU、VPU、BPU等令人眼花缭乱的各种芯片,本质上都属于ASIC。ASIC不同于 GPU 和 FPGA 的灵活性,定制化的 ASIC 一旦制造完成将不能更改,所以初期成本高、开发周期长的使得进入门槛高。目前,大多是具备 AI 算法又擅长芯片研发的巨头参与,如 Google 的 TPU。由于完美适用于神经网络相关算法,ASIC 在性能和功耗上都要优于 GPU 和 FPGA,TPU1 是传统 GPU 性能的 14-16 倍,NPU 是 GPU 的 118 倍。寒武纪已发布对外应用指令集,预计 ASIC 将是未来 AI 芯片的核心。

综上所述,在性能上,ASIC是优于另外几种计算方案的。在ASIC类众多芯片中,NPU的性能非常的突出,所以下面来介绍一下NPU。

二、NPU介绍

所谓NPU(Neural network Processing Unit), 即神经网络处理器。顾名思义,它是用电路来模拟人类的神经元和突触结构!如果想用电路模仿人类的神经元,就得把每个神经元抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了表达特定的知识,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等。该过程称为“学习”。在学习之后,人工神经网络可通过习得的知识来解决特定的问题。

由于深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集(包括x86和ARM等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高。这时就必须另辟蹊径——突破经典的冯·诺伊曼结构!

神经网络中存储和处理是一体化的,都是通过突触权重来体现。 而冯·诺伊曼结构中,存储和处理是分离的,分别由存储器和运算器来实现,二者之间存在巨大的差异。当用现有的基于冯·诺伊曼结构的经典计算机(如X86处理器和英伟达GPU)来跑神经网络应用时,就不可避免地受到存储和处理分离式结构的制约,因而影响效率。这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一。

NPU的典型代表有国内的寒武纪(Cambricon)芯片和IBM的TrueNorth。以中国的寒武纪为例,2016年3月,中国科学院计算技术研究所陈云霁、陈天石课题组提出了国际上首个深度学习处理器指令集DianNaoYu。DianNaoYu指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。

三、寒武纪NPU介绍

2016年,寒武纪科技发布了世界首款终端AI处理器、首款商用神经网络处理器(NPU)“寒武纪1A”(Cambricon-1A),面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,主流智能算法能耗比全面超越传统CPU、GPU。其高性能硬件架构及软件支持Caffe、Tensorflow、MXnet等主流AI开发平台。可广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域。

2017年,寒武纪科技又发布了第二代NPU架构“寒武纪1H”(Cambricon-1H),该系列较初代产品1A系列其能效比有着数倍提升,可以广泛应用于计算机视觉、语言识别、自然语言处理等智能处理关键领域。其中,Cambricon-1H16版本的IP作为1H系列高性能版本使用256MAC 16位浮点运算器以及512MAC 8位定点运算器。在1GHz主频下,进行16位浮点神经网络运算的峰值速度为0.5Tops;进行8位定点神经网络运算的峰值速度为1Tops。Cambricon-1H8版本IP作为1H系列中量级版本使用512MAC 8位定点运算器。在1GHz主频下,进行8位定点神经网络运算的峰值速度为1Tops。Cambricon-1H8mini版本IP作为1H系列轻量级版本使用256MAC 8位定点运算器。在1GHz主频下,进行8位定点神经网络运算的峰值速度为0.5Tops。

2018,寒武纪科技又发布了第三代IP产品“寒武纪1M”(Cambricon-1M),全球首个采用台积电7nm工艺制造,能耗比达到5Tops/W,即每瓦特5万亿次运算,并提供2Tops、4Tops、8Tops三种规模的处理器核,满足不同场景、不同量级的AI处理需求,并支持多核互联。寒武纪1M处理器延续了前两代IP产品寒武纪1H/1A卓越的完备性,单个处理器核即可支持CNN、RNN、SOM等多样化的深度学习模型,更进一步支持SVM、k-NN、k-Means、决策树等经典机器学习算法,支持本地训练,为视觉、语音、自然语言处理以及各类经典的机器学习任务提供灵活高效的计算平台,可广泛应用于智能手机、智能音箱、智能摄像头、智能驾驶等领域。

四、Cambricon-1A NPU应用

这里要首先介绍一下华为海思的麒麟970手机处理器,是因为它是全球首款人工智能移动计算平台,是业界首颗带有独立NPU(Neural Network Processing Unit)专用硬件处理单元的手机芯片。麒麟970创新性的集成了NPU专用硬件处理单元,创新设计了HiAI移动计算架构,其AI性能密度大幅优于CPU和GPU。相较于四个Cortex-A73核心,处理相同AI任务,新的异构计算架构拥有约 50 倍能效和 25 倍性能优势,图像识别速度可达到约2000张/分钟。而如此强大的NPU专用硬件处理单元,正是使用的寒武纪的Cambricon-1A系列的IP,也即麒麟970芯片集成了“寒武纪1A”处理器作为其核心人工智能处理单元(NPU)。

AI处理器-寒武纪NPU芯片简介相关推荐

  1. 寒武纪3款AI处理器齐发,陈天石3年小目标:占领10亿智能AI终端;占领中国AI云端高性能芯片1/3...

    业界瞩目的智能芯片引领者"寒武纪"6号召开了公司成立以来的首场发布会,隆重发布旗下新一代智能处理器IP产品,并阐述公司未来芯片产品研发路线图.此次发布会由中国科学院主办,寒武纪公司 ...

  2. 解密昇腾AI处理器--Ascend310简介

    Ascend310 AI处理器规格 Ascend310 AI处理器逻辑架构 昇腾AI处理器本质上是一个片上系统(System on Chip,SoC),主要可以应用在和图像.视频.语音.文字处理相关的 ...

  3. 飞腾64核服务器cpu芯片,【今日头条】飞腾64核CPU适配百度昆仑AI处理器:全国产的AI体系登场...

    原标题:[今日头条]飞腾64核CPU适配百度昆仑AI处理器:全国产的AI体系登场 继百度飞桨深度学习平台之后,百度的昆仑AI芯片日前也针对国产的飞腾CPU完成了适配.再加上已经适配的国产OS,在AI计 ...

  4. AI算法在FPGA芯片上还有这种操作?| 技术头条

    作者 | 杨付收 出品 | CSDN(ID:CSDNnews) 碾压与崛起 AI算法的崛起并非一帆风顺的,现在的主流的NN类的卷积神经网络已经是第二波浪潮了,早在上个世纪80年代,源于仿生学,后又发展 ...

  5. AI 算法在 FPGA 芯片上还有这种操作?

    作者 | 杨付收 出品 | CSDN(ID:CSDNnews) 碾压与崛起 AI算法的崛起并非一帆风顺的,现在的主流的NN类的卷积神经网络已经是第二波浪潮了,早在上个世纪80年代,源于仿生学,后又发展 ...

  6. Amlogic A311D芯片简介

    Amlogic A311D芯片简介 Amlogic A311D 是一款先进的 AI 应用处理器,专为混合 OTT/IP 机顶盒 (STB) 和高端媒体盒应用而设计.它将强大的 CPU.GPU 和神经网 ...

  7. 《AI系统周刊》第5期:Cerebras发布可运行120万亿参数AI模型的CS-2芯片

    No.05 智源社区 AI系统组 A I 系  统 研究 观点 资源 活动 关于周刊 AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,我们 ...

  8. ​“统治”移动处理器市场的Arm为何明年Q1才发布AI处理器?

    AI热潮来势汹汹,即便算法还不成熟,处理器算力还不足够,但大部分手机厂商已经让其旗舰手机用户或多或少地享受到了所谓的AI功能.其中,苹果和华为更是用集成NPU的自研处理器增强其手机的AI功能作为一大卖 ...

  9. AUTOSAR从入门到精通100讲(二十)-特斯拉、高通、华为AI处理器深度分析

    很多人会问,为什么没有英伟达?目前所有主流深度学习运算主流框架后端都是英伟达的CUDA,包括TensorFlow.Caffe.Caffe2.PyTorch.mxnet.PaddlePaddle,CUD ...

最新文章

  1. yii2服务器无法加载文件夹,用Yii2做的项目在部署到云服务器后访问无反应,也没有任何数据响应...
  2. 【NLP】相当全面:各种深度学习模型在文本分类任务上的应用
  3. 801. 二进制中1的个数
  4. Leangoo到底好在哪里?
  5. opencv-api resize
  6. 即时通讯学习笔记006---认识学习OpenFire服务器用的加密算法Blowfish_以及用java实现Blowfish算法
  7. nested exception is java.lang.NoClassDefFoundError: org/codehaus/jettison/json/JSONObject异常的解决办法
  8. 系列(一):加解密字符串及配置文件(CSASPNETEncryptAndDecryptConfiguration)
  9. 计算机网络之验证性实验(tracert+ARP)
  10. i510200h和i78750h哪个好
  11. 2019年计算机操作系统考研真题
  12. 大数据去重bitmap以及布隆过滤器
  13. 免校准的电量计量芯片_免校准电能计量芯片,让家电智能化更简单
  14. 青年大学习自动名单核对程序(使用教程)
  15. 联想拯救者常用快捷键
  16. 录音音频如何转换为mp3格式
  17. 苹果手机(iPhone)系统升级到IOS16.1后,发现连接WiFi、热点总是经常自动(随机)断开
  18. 机器学习(9)--神经网络
  19. 如何使用HTTPS加密保护网站?
  20. SecureCRT 服务器链接信息密码忘记找回

热门文章

  1. 北京住房公积金联名卡政策问答
  2. 共享流量包FAQ集锦
  3. JavaScript:Promise进阶知识
  4. 一阶线性差分方程通项公式求解
  5. hue-登录相关-简
  6. 实现一个直播视频app源码的邀请码功能
  7. 一个小程序:计算绩效的方案
  8. GaN制备micro-led(一)
  9. mysql 重启监听器_Oracle Lsnrctl监听器的启动和关闭
  10. ipv4-only网络环境下访问ipv6站点的三种方式