内容来源:ATYUN AI平台

人工智能和机器学习应用程序代表了嵌入式处理器的下一个重大市场机遇。然而,传统的处理解决方案并不是为了计算神经网络的工作负载,这些工作负载为许多应用程序提供了动力,因此需要新的架构来满足我们对智能日益增长的需求。

随着数十亿联网传感器节点被部署到物联网领域,有一件事已经变得清晰起来:自动化无处不在。考虑到物联网系统的本质,其中许多具有严重的经济、生产力和安全影响,这一需求超越了简单规则引擎或编程阈值的使用。作为回应,行业转向了人工智能和机器学习。

如今的人工智能和机器学习应用程序依赖于人工神经网络。人工神经网络是一种算法,通过将其定义特征组织成一系列结构层来分析数据集的不同方面。这些网络最初是建立在高性能计算平台上的,这些平台教算法根据特定的参数做出决策或预测。然后,该算法可以进行优化,并将其移植到一个嵌入式目标中,在此基础上,根据该字段中接收到的输入数据进行推断。

使用不同的嵌入式处理解决方案来执行基于应用程序的神经网络算法,为人工智能和机器学习开发人员提供了多种选择。但是,正如著名研究机构The Linley Group的高级分析师麦克·戴姆勒所指出的那样,每一种处理器都在性能和成本方面有所权衡。

戴姆勒说:“没有一种嵌入式的人工智能处理器。神经网络引擎可能会使用CPU, DSP, GPU或专门的深度学习加速器,或者是它们的一种组合。”

“这一趋势无疑是向CPU, GPU和DSP添加加速器。原因是它们比其他的通用核心(core)有更大的面积和效率。像Caffe和TensorFlow这样的开放深度学习框架增加了使用标准,以及像GoogleNet和ResNet这样的开放源码网络,IP供应商更容易设计出具有专门用于运行各种神经网络层的硬件。这就是为什么很多加速器都在不断地添加越来越大的乘积累加器阵列,因为在神经网络中,大多数的计算都是乘积累加计算(MAC)。”

人工智能工作负载的新兴架构
IP供应商针对神经网络工作负载的一个主要关注点是“灵活性”,因为在不断发展地人工智能市场中,需求正在迅速变化。在CEVA最近发布的NeuPro AI处理器架构中可以找到这样的例子,它由一个完全可编程的向量排列单元(VPU)和专门的用于矩阵乘法和计算激活(activation)、池化(pooling)、卷积(convolutional)和完全连接的神经网络层(图1)的特殊引擎组成。

图1:CEVA的NeuPro架构支持高达4000 8×8的MAC,超过了90%的MAC利用率。

处理神经网络工作负载的一个常见挑战是需要将大数据集转移到内存中。为了克服这一点,NeuPro架构结合直接内存访问(DMA)控制器,从而提高了双倍数据速率(DDR)的带宽利用率。

架构的一个更有趣的特性是能够动态地扩展分辨率以适应各个网络层的精度要求。根据CEVA的成像和计算机视觉产品营销主管丽兰·巴尔的说法,这有助于最大程度地提高神经网络的准确性。

“并不是所有的层都需要同样的精度。事实上,许多商业化的神经网络需要16位的分辨率来保持较高的精确度,但同时,8位的分辨率对于某些层来说已经足够了。NeuPro预先决定了每8位个或16位分辨率的层的精度,以实现完整的灵活性。例如,在使用NP4000产品时,可以在运行时动态选择4000 8×8、2048 16×8或1024 16×16的MAC。”

类似的功能也可以使用Imagination Technologies发布的PowerVR Series2NX,这是一种神经网络加速器(NNA),它的原生支持可以将位深(bit depth)降低到4位。然而,PowerVR Series2NX将动态扩展到极致,在相同的核心支持4、5、6、7、8、10、12和16位的分辨率,从而实现更好的精度(图2)。

图2:PowerVR Series2NX是一种神经网络加速器(NNA),它可以运行现成的网络,如GoogLeNet Inception,每秒钟可以进行500次的推断(inference)。

“我们可以把NNA架构看作是一个张量处理管道,”Imagination Technologies的视觉和人工智能副总裁罗素·詹姆斯说道。“它有一个神经网络计算引擎,优化了对大张量(输入数据和权重)的快速卷积,并由其他单元执行元素和张量操作,如激活、池化和规格化。该体系结构还使用了优化的数据流,使操作可以被分组到传递中,从而最小化外部内存访问。”

PowerVR Series2NX的另一个独特功能是它能够将数据转换为内存中的交换格式,可以由CPU或GPU读取,这使得异构系统在神经网络处理中处于领先地位。Imagination提供了一个网络开发工具包(NDK)来评估核心,它包含了将神经网络映射到NNA的工具,优化网络模型,以及转换在诸如Caffe和TensorFlow等框架中开发的网络。

除了IP供应商之外,主要芯片制造商还在继续利用人工智能的工作负载。NVIDIA Tegra和Xavier SoCs将CPU、GPU和自定义深度学习加速器结合在了自动驾驶系统上,而高通则继续在其六边形DSP中构建机器学习特性。甚至Google也创建了一个TPU。

这些公司都采用不同的方法处理神经网络工作负载,每种架构处理的用例略有不同。但是,对于开发者来说,越多的选择,当然就越好。

本文转自ATYUN人工智能媒体平台,原文链接:2018年嵌入式处理器报告:神经网络加速器的崛起

更多推荐

AI与闲置的智能手机网络处理大量数据,帮助发现食物中数百种抗癌分子

Deep Genomics:扩大实验室,任命Johan Fransson为临床前研究主管

微软推出新项目AI for Cultural Heritage,帮助保护文物,语言等文化遗产

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

2018年嵌入式处理器报告:神经网络加速器的崛起相关推荐

  1. 为什么说要重视神经网络加速器

    自从以深度学习为代表的神经网络算法的精度大大提升以后,人工智能开始终于又再次火了起来,且有席卷全球之势.根据BBC预测,到2020年,人工智能总体市场将会高达1190亿元的规模,年平均复合增长率也将达 ...

  2. 神经网络算法处理器设计,神经网络是机器算法吗

    TCL电视神经网络处理器是什么? npu.1.tcl电视专攻NPU(神经网络处理器)的海思Hi3516DV300芯片是神经网络处理器.2.神经网络处理器,也就是通常说的AI处理器. 它可以是手机更聪明 ...

  3. 600 TOPS超高算力,2~8核灵活配置!Imagination新发布神经网络加速器IP

    芯东西(ID:aichip001)文 | 董温淑 芯东西11月13日消息,就在昨天,Imagination Technologies发布了最新一代神经网络加速器IP核IMG Series4 NNA,并 ...

  4. 毕马威:2018全球科技创新报告(附PDF下载)

    来源:走向智能论坛 摘要:日前,毕马威发布<2018全球科技创新报告>,报告显示,我们如今正处在一个科技创新爆发的时代,人工智能.机器人和物联网必将会影响全球的商业,那些不主动去抓住未来趋 ...

  5. 嵌入式Linux结课报告,嵌入式课程报告.doc

    嵌入式课程报告 嵌入式系统及应用设计报告 题 目 嵌入式Linux系统移植 专 业 电子与通信工程 姓 名 王文平 学 号 1320610012 一.硬件设备介绍 此次实验用的板子是友善之臂的Mini ...

  6. [转]Cortex-a8 arm11 arm9 xscale powerpc 嵌入式处理器实测性能

    周明的嵌入式技术博客 Cortex-a8 arm11 arm9 xscale powerpc 嵌入式处理器实测性能 Verfasst von zhoum am Do, 03/05/2009 - 15: ...

  7. 使用Matlab+Simulink开发Cortex-M系列嵌入式处理器应用程序

    使用Matlab+Simulink开发Cortex-M系列嵌入式处理器应用程序 文档编号 TN_AAAA_A0 关键字 Matlab, Simulink, Cortex-M, 基于模型设计, Mode ...

  8. Imagination Series3NX神经网络加速器助力展锐打造其新一代5G智能手机平台

    优异的PPA特性和可扩展性支持SoC制造商实现领先AI功能 英国伦敦和中国上海,2021年12月20日--Imagination Technologies宣布:领先的无晶圆厂半导体公司展锐(UNISO ...

  9. 利用Vitis开发基于ZCU106的神经网络加速器(一)——Vitis概述及XRT编译

    前言 毕设要用到Xilinx家的ZCU106这块板子,了解到最近Xilinx统一了Vivado,XilinxSDK,并集成了常用开源IP核,推出了Vitis统一软件平台,使我们不再需要关注底层的Ver ...

  10. 【谢源评体系结构顶会 MICRO 2016】神经网络加速器仍是热点,但图计算加速器夺最佳论文(下载)...

    MICRO(The 49th Annual IEEE/ACM International Symposium on Microarchitecture)是计算机体系结构领域的顶级会议,重点关注处理器体 ...

最新文章

  1. 【转载】【贪心】各种覆盖问题
  2. Python 2 宣布正式退休,Python 3 时代到来!
  3. 编译与解释实践(1)-flex and bison 配置安装
  4. OSI七层-相关协议
  5. if ( document.all ) 可以简单的判断浏览器是否IE浏览器?
  6. [置顶]android ListView包含Checkbox滑动时状态改变
  7. 你真的会用Gson吗?Gson使用指南(三)
  8. P5708 【深基2.习2】三角形面积【入门题】
  9. 微信小程序-colorUI组件库
  10. 电机与拖动 - 1 绪论
  11. python函数式编程
  12. Python实用模块(二十四)tenacity
  13. 拼多多按关键字搜索商品 API
  14. Java中的日历类:输入生日计算——那些活过的日子与10000天纪念
  15. matlab 根据长轴,短轴,中心坐标画椭圆
  16. scrapy框架爬取斗鱼女主播照片,依据颜值排行榜
  17. 超过70%的5G应用将发生于室内!共建共享室分助力5G高质量加速发展
  18. el-upload上传阿里云(oss上传)
  19. Jenkins环境部署
  20. 2022长安杯的网站重构及部分题解

热门文章

  1. matlab 人群疏散,建筑物内的人员数量确定方法和人群疏散方法
  2. oracle如何实现累乘,由复合指标计算引起的oracle累乘
  3. 外圣内王适用于互联网行业吗?
  4. 关于广告投放系统:竞价策略(2018)
  5. 谈谈对 SRE 的理解
  6. Currently, defining WATERMARK on a changelog source is not supported
  7. 同济大学Openwrt路由器 ipv6教程(新手导向)
  8. 电脑联想小新连上蓝牙耳机依然外放,终于解决了
  9. 【HLA】初识HLA/RTI
  10. 极路由2hc5761刷华硕固件_[固件] 【原创首发】极二路由HC5761 9012.1.9227s成功刷成openwrt...