人工智能历经风雨二十载 AI专用芯片成蓝海

正如20年前多媒体应用及3D游戏蓬勃发展倒逼显卡硬件升级一样，互联网大数据的兴起对超算芯片提出了新的需求。

事实上，AI界的泰斗，加拿大多伦多大学的Hiton教授早在2006年就提出了深度学习的概念，浅层学习算法更是早在上世纪80年代就为学术界所广泛认可。之所以最近几年该领域应用才逐渐升温，是因为AI的发展离不开两方面的支持，大数据和计算资源。

一、从“深蓝”到“AlphaGO”，人工智能走过二十年

距离1996年“深蓝”大战卡斯帕罗夫整整20年后，“AlphaGO”再次通过人机对战的形式为人工智能的发展历史添上了浓重一笔。站在今天，我们可以笑言那曾经令人瞠目结舌的“深蓝”实际上只是一个运行于超级计算机上的一个很棒的国际象棋程序，而为了支撑这个程序，IBM团队打造了一台重1.2吨、配备480颗国际象棋专用芯片的庞然大物。

不同于“深蓝”依靠超强运算能力所采取的遍历搜索策略，“AlphaGO”的设计中融入了近年来取得显著进展的深度学习算法。深度学习之所以被称为“深度”，是相对前向误差反馈神经网络、支持向量机等浅层学习算法而言。后者的局限性在于有限样本和计算单元情况下，对复杂函数的表示能力有限，且需要依靠人工经验抽取样本特征。深度学习算法则通过构建一种深层非线性网络结构来实现复杂函数逼近及自动特征提取，具有强大的从少数样本集中挖掘数据统计规律的能力。

在基于深度学习方法的人脸识别领域，2014年，Facebook公司的DeepFace项目以及香港中文大学的DeepID项目在户外人脸识别数据库上的识别正确率分别达到97.45%和97.35%，几乎可以比肩人类97.5%的识别率。此外，在图像分类、自然语音识别等领域，深度学习也已证明了其无可比拟的优势，特别是在现存最复杂的完全信息博弈之一的围棋上的成功，说明该算法还大有潜力可挖。

关于AlphaGO还有个不为人知的小插曲。在对战李世石之前，AlphaGO曾于2016年1月以5:0的悬殊比分完胜欧洲围棋冠军樊麾二段。旁观的李世石在比赛结束后表示有信心捍卫人类在棋类运动上最后的荣誉。然而短短的一个月时间内，Google将AlphaGO的核心运算单元从CPUGPU换成了专门的深度学习芯片。于是，我们看到了“石佛”尴尬的笑容和发抖的手指。

二、脱离硬件支持，深度学习只能是“屠龙之技”

深度学习模型需要通过大量的数据训练才能获得理想的效果。以语音识别问题为例，仅在其声学建模部分，算法就面临着十亿到千亿级别的训练样本。在这种情况下，只有表达能力强的数学模型才能够充分发掘海量数据中蕴藏的丰富信息。相应地，海量数据的运算处理也必须有强大的计算资源作为支撑。

举个毫不夸张的例子，今天的计算机一个中小型网络的训练需要一天时间，可能使用20年前的计算机需要近20年才能完成。因此，即便深度学习算法早20年诞生，没有硬件匹配也只能是屠龙之技。而即便是今天，AI相关硬件的发展仍远落后于软件算法。一方面，AI界的算法大牛实在太多，甩开摩尔定律数十年来笔耕不辍地升级着软件;另一方面，当前执行深度学习算法的主流方式是采用GPU芯片，为深度学习算法专门定制的芯片还远没有形成规模。虽然从架构上看，GPU相比CPU更有效率，但是离最优还相距甚远。而且GPU功耗惊人，很难委身于移动终端，更遑论物联网应用。

三、云端“高吞吐”，本地“小快灵”

目前的AI应用主要分为用于服务器端和用于移动终端两大类。服务器端的负责AI算法的芯片一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力;另一方面必须支持高精度浮点数运算，峰值性能至少要达到Tflops(每秒执行10^12次浮点数运算)级别，所以功耗非常大(>200W);而且为了能够提升性能必须支持阵列式结构(即可以把多块芯片组成一个计算阵列以加速运算)。由于服务器端的AI芯片必须兼顾通用性，因此性能优化无法做到量体裁衣，只能做一些宏观的优化。

现有的主流服务器端的硬件加速器以图形处理器和现场可编程逻辑门阵列为主。GPU具有强大的浮点运算能力，因此除图像处理的本职工作外，被广泛应用于科学计算、密码破解、数值分析，海量数据处理等需要大规模并行计算的领域。与GPU相比，FPGA器件虽然在计算运行速度上与ASIC芯片有所差距，产品更新换代的速度也要慢于GPU芯片;但是功耗仅仅是GPU的1/10，并且还可以通过重配置对目标应用进行最大限度的优化。除了FPGA和GPU之外，也有不少公司在做服务器端的深度学习加速芯片，例如Google的TPU、Intel的 Nervana System以及Wave Computing等等。

移动端的AI芯片和服务器端的AI芯片在设计思路上有着本质的区别。首先，移动端的AI芯片必须满足低延迟要求。这里的延迟是指移动终端与云端或服务器端的通信延迟。以大家熟悉的siri应用为例，移动终端把语音数据上传至云端，云端执行算法并把结果送回移动端，这当然要求网络延迟尽可能小以提升用户体验。而在驾驶辅助、安防监控等对实时性要求极为严苛的应用场景下，低延迟的重要性更是无需赘言;其次，移动端AI芯片必须保证功耗控制在一定范围内，换言之，必须保证很高的计算能效;最后，移动端AI应用对算法的性能要求不如服务器端苛刻，允许一些计算精度损失，因此可以使用一些定点数运算以及网络压缩的办法来加速运算。而如果从另一个角度看，把所有数据传回云端一方面有可能造成网络的拥堵，另一方面存在数据安全问题，一旦数据在传输过程中被恶意劫持，后果将无法想象。因此，一个必然的趋势是在移动端本地分担部分快速反应的AI算法，从而尽量避免上述问题。

四、AI专用芯片，业界巨头们的蓝海

正如20年前多媒体应用及3D游戏蓬勃发展倒逼显卡硬件升级一样，互联网大数据的兴起对超算芯片提出了新的需求。如前所述，GPU和FPGA是目前软件企业采取的主流方案。百度的机器学习硬件系统就是用FPGA搭建了一款AI专用芯片，并已大规模部署在语音识别、广告点击率预估模型等应用中;而语音识别领域的科大讯飞，则将几乎所有深度学习训练方面的运算都放在GPU加速卡上运行。不过业界也有消息，科大讯飞计划在语音识别业务中启用FPGA平台。

作为GPU和FPGA领域的巨头，Nvidia和Intel已相继公布了开发AI专用芯片的计划。2016年上半年，NVIDIA为深度神经网络推出了TeslaP100GPU，并基于此开发了深度学习超级计算机NVIDIADGX-1。与此同时，IBM已与NVIDIA推出了几款专门针对人工智能领域的服务器产品。而收购了FPGA巨头Altera公司的Intel也不甘落后，结合FPGA在大数据运算处理方面的优势，全力打造新的专注大数据高性能运算以及AI应用的至强融合系列处理器。

此外，Intel还于2016年8月宣布收购深度学习芯片初创公司Nervana，以增强Intel在AI方面的业务能力。目前，芯片层面最大的变数来自于Google的TPU芯片。这款芯片是Google专门为其深度神经网络的软件驱动引擎TensorFlow量身打造的。谷歌表示，按照摩尔定律的发展轨迹，现在的TPU的计算能力相当于未来七年才能达到的计算水平。目前，TPU已经服务于Google的AI系统Rank Brain、街景Street View、Alpha GO等应用服务。

TPU的高效能来自于Google专门为AI应用做出的针对性优化。在效能与功耗上TPU能够更紧密地适配机器学习算法，这一点要远胜于GPU及FPGA等通用芯片。从性能角度而言，目前针对某个算法优化的专用AI芯片能比GPU在性能上提升多少还未有定论，这也要结合具体算法来看。如果GPU刚好卡到某个瓶颈，那么AI芯片在运算速度上提升几十倍也是有可能的。AI算法始终保持着快速演进的趋势，因此专用AI芯片的发展一定与软件是并行互补的。

从成本角度来看，任何芯片一旦量产，成本都会迅速下降。就服务器端的AI芯片而言，首先量肯定不如移动市场大;其次由于强调运算性能，导致其技术壁垒较高，新的竞争者难以快速切入。目前来看AI芯片基本没有创业机会。流片在千万美元级别，全世界的玩家屈指可数。而所有巨头又都盯着AI这块巨大的蛋糕，因此在该领域基本不可能有搅局者的出现。AI虽然是蓝海，但只是大公司的蓝海。

本文转自d1net（转载）

人工智能历经风雨二十载 AI专用芯片成蓝海相关推荐

风雨二十载：OpenGL 4.3规范发布
移动3D图形新规范OpenGL ES 3.0发布的同时,Khronos Group组织也公布了桌面版OpenGL的最新版本 4.3,也算是总给这个3D API二十岁生日的最好礼物. 1992年,Ope ...
阿里达摩院发布2019十大科技趋势！AI专用芯片将挑战GPU的绝对统治地位
↑ 点击上方[计算机视觉联盟]关注我们信息革命.移动互联网革命尚未落幕,智能革命又像一头大象一样撞进人类的生活,激荡着整个世界.任何足够先进的科技,初看都与魔法无异,但魔法背后是对规律和趋势的洞悉. ...
一别二十载，御帝哥哥别来无恙？
今晚央视4演的女儿国,记得小时候看的就是热闹,不怎么喜欢这集,20年过去了,现在看明白了点其中的滋味,最近总看到有些朋友说感情,点点滴滴吧,让大家受一次心灵的洗礼,或许您看过~ 在中央电视台<艺 ...
二十载风雨飘摇，成败荣辱也潸然――Borland程序员之痛
二十载风雨飘摇,成败荣辱也潸然 ――Borland程序员之痛 (宋宝华 [email]21cnbao@ ...
EPP李彬老师—《极简绩效管理法》作者，二十载大唐电信步长制药 500强外企人力资源管理工作经验
EPP李彬老师简介 EPP李彬老师-<极简绩效管理法>作者, 二十载大唐电信步长制药 500强外企人力资源管理工作经验 EPP李彬老师-<极简绩效管理法>作者资质硕士研 ...
全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选
乾明编辑整理量子位报道 | 公众号 QbitAI AI芯片哪家强?现在,有直接的对比与参考了. 英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片. 并给出了各个 ...
创新奇智CTO张发恩：AI+to B还是蓝海将诞生新巨头
关注网易智能,聚焦AI大事件,读懂下一个大时代! 出品 | 网易智能(公众号 smartman163) 期号 | AI英雄总第102期作者 | 丁广胜李开复是全球AI领域最积极的布道者,而创新工场 ...
TechCrunch前沿｜搜狗吴滔：创新性翻译硬件是AI技术落地的蓝海
2018年度 TechCrunch国际创新峰会于7月2日-3日在杭州召开,吸引了阿里巴巴.搜狗.微软等多家国内外顶级企业高管,围绕着人工智能.电商.物联网等热门主题,分享了他们对未来科技发展的真知灼见 ...
手机影像二十载，AI多摄会是终极答案吗？
上世纪20年代,拉兹洛·莫霍利·纳吉曾说,"不懂得摄影的人,便是将来的文盲".如今大规模普及的手机摄影,正好说明了这句话惊人的预见性.自拍.合影.短视频--按下手机拍照键记录生活, ...

人工智能历经风雨二十载 AI专用芯片成蓝海

人工智能历经风雨二十载 AI专用芯片成蓝海相关推荐

最新文章

热门文章