谷歌Edge TPU的价格不足1000人民币,远低于TPU。实际上,Edge TPU基本上就是机器学习的树莓派,它是一个用TPU在边缘进行推理的设备。

一、云vs边缘

1、边缘运行没有网络延迟

Edge TPU显然是在边缘(edge)运行的,但边缘是什么呢?为什么我们不选择在云上运行所有东西呢?


在云中运行代码意味着使用的CPU、GPU和TPU都是通过浏览器提供的。边缘与云相反,即在本地运行代码。在边缘运行代码的主要优点是没有网络延迟,由于物联网设备通常要频繁地生成数据,因此运行在边缘上的代码非常适合基于物联网的解决方案。

二、对比CPU、GPU,深度剖析TPU

TPU直接提供传递信息,减少延迟

TPU是类似于CPU或GPU的一种处理器。不过,它们之间存在很大的差异。

最大的区别是TPU是 ASIC(专用集成芯片)。ASIC经过优化,可以执行特定类型的应用程序。

对于TPU来说,它的特定任务就是执行神经网络中常用的乘积累加运算。

CPU和GPU并未针对特定类型的应用程序进行优化,因此它们不是ASIC。

下面我们分别看看 CPU、GPU和TPU如何使用各自的架构执行累积乘加运算:

1、在CPU上进行累积乘加运算

CPU通过从内存中读取每个输入和权重,将它们与其ALU (上图中的计算器) 相乘,然后将它们写回内存中,最后将所有相乘的值相加,从而执行乘积累加运算。

现代CPU通过其每个内核上的大量缓存、分支预测和高时钟频率得到增强。这些都有助于降低CPU的延迟。

2、GPU上的乘积累加运算(通过并行计算来大幅提高吞吐量,代价是延迟增加)

GPU的原理类似,但它有成千上万的ALU来执行计算。计算可以在所有ALU上并行进行,这被称为 SIMD (单指令流多数据流)。

一个很好的例子就是神经网络中的多重加法运算。

然而,GPU 并不使用上述那些能够降低延迟的功能。它还需要协调它的数千个 ALU,这进一步减少了延迟。

简而言之,GPU 通过并行计算来大幅提高吞吐量,代价是延迟增加。

或者换句话说:CPU是一个强大而训练有素的斯巴达战士,而GPU就像一支庞大的农民大军,但农民大军可以打败斯巴达战士,因为他们人多。

3、读取TPU上的乘加操作的权重

TPU的运作方式非常不同,它的ALU是直接相互连接的,不需要使用内存。

它们可以直接提供传递信息,从而大大减少延迟。

从上图中可以看出,神经网络的所有权重都被加载到ALU中。完成此操作后,神经网络的输入将加载到这些ALU中以执行乘积累加操作。

神经网络的所有输入并不是同时插入ALU的,而是从左到右逐步地插入,这样做是为了防止内存访问。因为ALU的输出将传播到下一个ALU,这都是通过脉动阵列 (systolic array) 的方式完成的,如下图所示。

使用脉动阵列执行乘加操作:


上图中的每个灰色单元表示TPU中的一个ALU (其中包含一个权重),在ALU 中,乘加操作是通过将ALU从顶部得到的输入乘以它的权重,然后将它与从左边得到的值相加。此操作的结果将传播到右侧,继续完成乘加操作。ALU从顶部得到的输入被传播到底部,用于为神经网络层中的下一个神经元执行乘加操作。

在每一行的末尾,可以找到层中每个神经元的乘加运算的结果,而不需要在运算之间使用内存,使用这种脉动阵列显著提高了Edge TPU的性能。

三、Edge TPU 推理速度超过其他处理器架构

1、使用量化和更少的内存操作,高速且环保

TPU 还有一个重要步骤是量化 (quantization)。

由于谷歌的Edge TPU使用8 位权重进行计算,而通常使用32位权重。所以我们应该将权重从32位转换为8位,这个过程叫做量化。

量化基本上是将更精确的32位数字近似到8位数字。量化过程如下图所示:

四舍五入会降低精度,然而,神经网络具有很好的泛化能力 (例如dropout)。因此在使用量化时不会受到很大的影响,如下图所示。

非量化模型与量化模型的精度:

量化的优势更为显著,它减少了计算量和内存需求,从而提高了计算的能源效率。

Edge TPU执行推理的速度比任何其他处理器架构都要快。它不仅速度更快,而且通过使用量化和更少的内存操作,从而更加环保。




参考资料:
从云到端,进阶的谷歌AI芯片Edge TPU到底有多快?

AI芯片:Edge TPU(谷歌出品)【在边缘(edge)设备上运行的“专用集成芯片”】【量化操作:Edge TPU使用8 位权重进行计算,而通常使用32位权重。所以我们应该将权重从32位转换为8位】相关推荐

  1. 截断骨干用于检测,YOLO-ReT开源:边缘GPU设备上的高性能检测器

    作者丨happy 编辑丨极市平台 论文链接:https://arxiv.org/pdf/2110.13713.pdf 代码链接:https://github.com/prakharg24/yolore ...

  2. 别只关注M1芯片的苹果笔记本,iOS APP支持在 Mac上运行也是大事

    将会在当地时间 11 月 10 日(北京时间 11 月 11 日凌晨 2 点)在 Apple Park 举办发布会,这是苹果在本年度秋季举行的第三次发布会,App Store 上似乎透露出发布会的蛛丝 ...

  3. 边缘AI新方法TinyML,超低功耗,存储占用KB计,在边缘设备上进行机器学习

    点击上方"迈微AI研习社",选择"星标★"公众号 重磅干货,第一时间送达 选自:towardsdatascience 人工智能 AI 正在加快速度从云端走向边缘 ...

  4. 边缘设备上的实时AI人员检测:入门

    下载数据-19.3 MB 下载模型-43.5 MB 下载结果-36.66 MB 得益于深度学习(DL),实时视频流中的人的实时检测几年前就已经解决了.但是,在边缘和物联网设备上并不总是那么容易,因为它 ...

  5. 每日新闻:中国母婴幼市场将达3万亿;基于内存计算技术的智能芯片问世;谷歌推图片压缩工具Squoosh;腾讯选定全球地图数据提供商...

    关注中国软件网 最新鲜的企业级干货聚集地 趋势洞察 艾瑞咨询:2020年中国母婴童市场将达到3万亿元 图片来源:艾瑞咨询 艾瑞咨询发布<2018年中国互联网母婴童行业研究报告>,称全面二孩 ...

  6. 边缘设备上的实时AI虫害消除:入门

    目录 介绍 选择器与检测器 实时性呢? 下一步 在这里,我们从使用AI和DNN的角度阐述了害虫消除的问题.然后,我们提出两种可能的解决方案:1--使用预训练的SSD模型检测猫.羊和其他动物:2--使用 ...

  7. 边缘设备上的实时AI人员检测:以实时模式检测视频中的人员

    下载数据-19.3 MB 下载模型-43.5 MB 下载结果-36.66 MB 这是七篇系列文章中的最后一篇.到目前为止,我们已经有了用于人员检测的DNN模型和用于在Raspberry Pi设备上启动 ...

  8. 让32位Eclipse和64位Eclipse同时在64的Windows7上运行

    转自让32位Eclipse和64位Eclipse同时在64的Windows7上运行 参考这篇文章:http://wenku.baidu.com/view/57994c270066f5335a81214 ...

  9. 阿里平头哥研发专用 SoC 芯片;部分 MacBook Pro 被禁止上飞机;VS Code 1.37 发布 | 极客头条...

    快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有 ...

  10. 170 FPS!YolactEdge:边缘设备上的实时实例分割,已开源!

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:AI人工智能初学者 论文:https://arxiv.org/abs/2012.1 ...

最新文章

  1. SQL 语句快速参考
  2. Python基础之最大公约数与最小公倍数
  3. Laravel+passport 实现API认证
  4. 缺失值填充2——python 热卡填充(Hot deck imputation)、冷卡填充(Cold deck imputation)
  5. 为何大厂APP如微信、支付宝、淘宝、手Q等只适配了armeabi-v7a/armeabi?
  6. 大数据讲课笔记5.5 MR案例——倒排索引
  7. intel ax200ngw刷killer 1650x教程
  8. count在python中是什么意思_python count返回什么
  9. C++ 多态(2): 纯虚函数, 抽象类和接口类
  10. PHP快速输出26大小写字母
  11. 计算机网络中速率和带宽的区别
  12. libnet、libnids、libpcap轻松搭建Linux网络入侵检测系统
  13. PowerBI-时间智能函数-ENDOF系列
  14. 问题解决:配置静态IP
  15. Python herhan学习 day1
  16. 阿里企业云邮箱 报错 526 Authentication failure[0]
  17. 紫枫术河 imx6 uboot的mtd分区总结(rootfs为ubi文件系统) imx6 uboot的mtd分区总结(rootfs为ubi文件系统)
  18. SQL进阶之路03:三值逻辑和NULL
  19. 对缓冲、带宽、码率的理解
  20. 本周大新闻|128GB版Quest 2再降价,Mojo Vision完成“新A轮”融资

热门文章

  1. RDS经典网络平滑迁移到VPC的混访方案
  2. 清朝12位皇帝简介【顺康雍乾嘉道咸同光宣】
  3. 我是高管,空降的第60天,被辞职了,惨惨惨
  4. efficientNet论文心得
  5. LeNet论文阅读笔记
  6. [转]GNSS NMEA-0183协议解析
  7. 微信公众平台开发概述
  8. 电脑计算机无法搜索文件,电脑中的文件搜索功能出错怎么办?电脑无法搜索出实际存在的文件如何解决...
  9. 每一个小孩都是种子,请允许Ta在成长的路上跌跌撞撞。耐心的等待,种子一定能长成参天大树!
  10. 时空序列预测模型之PredRNN(用ST-LSTM的预测学习循环神经网络)