【IT168 资讯】这几天,已经退役的AlphaGo又强行刷了一波头条,不是又跟哪位世界高手对决,而是“新狗”通过无监督式学习,仅用3天时间就战胜了李世石版的AlphaGo,然后用了21天时间战胜了柯洁版本AlphaGo。AlphaGo让我们真真切切地看到了AI计算的强大。

目前,我们在AI计算平台使用最广泛的两种加速部件是GPU和FPGA。GPU可适用于具备计算密集、高并行、SIMD(Single Instruction Multiple Data,单指令多数据流)应用等特点的深度学习训练模型领域,并且GPU创建了包含CNN、DNN、RNN、LSTM以及强化学习网络等算法在内的应用加速平台和生态系统。

但是,最近FPGA又频频被各AI领域的巨头看好,比如微软、百度、科大讯飞都对FPGA应用前景有所期待。那么如果让你选择FPGA作为AI计算系统的主力军,你会有什么样的顾虑?

▲浪潮FPGA

顾虑一: FPGA有啥优势?什么样的场景更适合FPGA?

首先,深度学习包含两个计算环节,即训练和推理环节。GPU在深度学习算法模型训练上非常高效,但在推理时对于小批量数据,并行计算的优势不能发挥出来。

而FPGA 同时拥有流水线并行和数据并行,因此处理任务时候延迟更低。例如处理一个数据包有 10 个步骤,FPGA 可以搭建一个 10 级流水线,流水线的不同级在处理不同的数据包,每个数据包流经 10 级之后处理完成。每处理完成一个数据包,就能马上输出。通常来说,FPGA 加速只需要微秒级的 PCIe 延迟。当Intel 推出通过 QPI快速通道互联的 Xeon + FPGA 之后,CPU 和 FPGA 之间的延迟甚至可以降到 100 纳秒以下。

其次,FPGA是可编程芯片,算法烧录更加灵活。目前来看,深度学习算法还未完全成熟,算法还在迭代衍化过程中,若深度学习算法发生大的变化,FPGA是软件定义硬件,可以灵活切换算法,快速切入市场。

据分析,未来至少95%的机器学习计算都是用于推断,只有不到5%是用于模型训练,而FPGA正是强在推断。大幅提升推断效率的同时,还能最小限度损失精确性,这正是FPGA的强项。

顾虑二:FPGA的计算性能能不能满足我的需求?

与CPU和GPU不同,FPGA是一种典型的非诺依曼架构,是硬件适配软件的模式,它能够根据系统资源和算法特征灵活的调整并行度,达到最优的适配,因此能效比高于CPU和GPU。

以浪潮F10A为例,这是目前业界支持OpenCL的最高密度最高性能的FPGA加速设备,基于Altera的Arria 10芯片,单芯片峰值运算能力达到了1.5TFlops,功耗却只需35W,每瓦特性能达到42GFlops。同时,F10A设计为高密度的半高半长PCI-E插卡,同时具有灵活的板卡内存配置,最大支持32G双通道内存,是业内同等FPGA卡内存容量的4-8倍。此外,F10A支持2个10Gb光口,可以实现数据直接从网络到板卡处理,无需经过CPU,大大减低了传输延时。

测试数据显示,在语音识别应用下,浪潮F10A较CPU性能加速2.87倍,而功耗相当于CPU的15.7%,性能功耗比提升18倍。

顾虑三:FPGA的开发周期得1年以上吧,这不能满足我的业务上线需求?

传统的FPGA的开发类似于芯片的开发,采用硬件描述语言(HDL)开发,HDL

开发带来的问题就会像芯片设计一样周期会比较长,从架构设计、到仿真验证、再到最终完成,需要一年左右的开发时间。

但是互联网的业务迭代速度极快,在几个月时间内就可能完成庞大用户群的积累,因此业务对于数据中心的要求是“快”—计算力平台的升级要尽量快地满足业务的发展,因此FPGA的传统开发模式动辄以半年或年为单位的开发周期难以满足需求。

为此浪潮尝试通过OpenCL高级语言开发方式,它把底层的硬件如总线、IO接口、访存控制器等和底层软件如驱动、函数调用等全部封装,变成标准单元提供上层支持,用户只需要关注算法本身,OpenCL开发的逻辑通过编译工具直接映射到FPGA中,开发周期从至少1年缩短至4个月以内。

顾虑四:对于O经验的公司,怎样快速上线FPGA应用?

或许你还是有些顾虑,即时开发效率大幅提升、开发周期大大缩短,但是对于技术和团队储备不足的中小型AI企业来说,FPGA仍是“高不可攀”的AI加速部件。

如果,有一种方案能够将软件、算法和硬件板卡整合,以软硬一体化的形式,提供FaaS(FPGA as a Service)服务。你还有什么顾虑么?

目前,浪潮正在针对市场上需求最迫切的几种应用场景进行算法的移植开发,在图像压缩、文本数据压缩及神经网络加速等应用开发出业界领先的IP,省去客户的算法开发周期,最小化FPGA落地门槛、最大化FPGA落地效率。

神经网络加速方案:基于浪潮F10A的AI线上推理加速方案,针对CNN卷积神经网络的相关算法进行优化和固化,可加速ResNet等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。

实测数据显示,在进行ResNet残差网络的图片识别分类任务时,浪潮F10A加速方案图片处理速度可达每秒742张,Top-5识别准确率达到99.6%,相比同档次GPU能效比提升3倍以上。而与通用CPU对比,在处理这种高并行、小计算量的任务时,F10A的优势将更明显。

· WebP图片转码压缩加速方案:针对图片数据的压缩应用,嵌入基于FPGA计算环境下的WebP编解码优化算法,通过充分利用硬件流水设计和任务级并行,大大提升WebP图像压缩编码算法的处理性能,能够实现JPEG-WebP图片格式的快速转换,比传统实现方式的整体处理效率平均高9.13倍左右,最高性能可比CPU提高14倍。

· 数据压缩加速方案:为解决传统压缩架构的弊端,浪潮GZip算法加速方案充分利用板卡硬件流水设计和任务级并行,大幅提升了压缩任务的吞吐量并有效降低CPU的负载,压缩率(压缩率=1-压缩后文件/压缩前文件)最高可达94.8%,压缩速度达到1.2GB/s,10倍于传统方案的压缩效率。

顾虑五:我是做云的,FPGA咋管理?支持虚拟机么?

FaaS不仅仅是指板卡与软件算法的一体化服务,同时还可以支持公有云及在线远程管理和更新。浪潮FPGA解决方案能够支持动态逻辑的在线可重构、静态逻辑的远程更新,并且通过优化的监控管理机制,提升板卡远程监控管理的可靠性,通过它们可以实时的监控FPGA芯片的温度、板卡风扇转速、板卡内存特性等从而调整FPGA的工作频率。

同时浪潮FPGA也支持虚拟机的直接访问,板卡本身也加入了很多RAS(可靠性、可用性、可扩展性)特性,如高可靠内存访问等,支持并行(FPP)和串行(AS)双加载模式,任何一种模式加载出现故障,都可以快速切换到另一种模式加载,保证了板卡大规模服务的可用性。

有了这些特性,就可以利用浪潮FPGA方案,快速搭建FPGA云所需要的基础底层计算平台,不论是对外提供公有云服务,还是对内实现FPGA计算力快速分配都能够既高效又可靠。

顾虑六:我可不想当小白鼠,有谁用过了?

对于FPGA这种新兴的AI计算设备,“观望”往往是明智的选择,毕竟不是每家公司都想要作为新技术的小白鼠,而当有第一个吃螃蟹的人出现后,“跟进”则成为“飞猪”的必然之路。

目前,浪潮FPGA已经在百度、阿里巴巴、腾讯、网易、科大讯飞取得批量的落地应用或深度测试,FPGA在人工智能线上推理的能效优势已经得到大部分互联网和AI公司的认可。

那么,FPGA可以应用在哪些领域?我们可以听听腾讯云FPGA团队负责人怎么说:

1.在机器学习领域、金融领域、大数据领域、基因检测领域都存在比较大的数据量需要分析计算,这些是FPGA可以发挥高吞吐优势的领域。

2.网络安全领域有更安全、更低延时的需求,这些场景也可以发挥FPGA低延时的优势。

3.超大规模图像处理,这些图片的处理都使用FPGA来进行处理加速,都可以得到满意的效果。

4. 现在比较热门的自然语言处理和语音识别这些也都是FPGA可以发挥优势的场景。

当FPGA成为一种计算力服务,有着高效的硬件、成熟的IP和云化管理,你还在顾虑什么?

浪潮拥有国内领先的FPGA软硬件开发团队,浪潮正联合Intel及BAT、科大讯飞、网易等AI领先企业深入研发基于FPGA的通用系统方案,包括深度学习、网络加速、存储优化等,并将方案推广到其它应用领域和客户。未来,CPU+FPGA或许将作为新的异构加速模式,被越来越多的应用领域采用。

fpga运算服务器_当FPGA也成为一种服务,你还在顾虑什么?相关推荐

  1. fpga运算服务器_一张图了解CPU、GPU、ASIC、FPGA性能、功耗效率、灵活性

    ​CPU:中央处理器(Central Processing Unit,CPU):通用芯片,主要生产厂家如intel.AMD等,用于PC.服务器等领域.CPU作为通用芯片,可以用来做很多事情,灵活性最高 ...

  2. fpga倍频程序_初识FPGA

    FPGA(Field-Programmable Gate Array,现场可编程门阵列),FPGA内部有大量的可编程逻辑功能块,使用verilog HDL(硬件描述语言)实现设计. FPGA与单片机最 ...

  3. altera fpga 型号说明_基于FPGA的USB2.0接口通信

    欢迎FPGA工程师加入官方微信技术群 点击蓝字关注我们FPGA之家-中国最好最大的FPGA纯工程师社群 概述 本文主要介绍一种基于FPGA的FT232H接口通信开发方案.传统的USB通信开发对工程人员 ...

  4. fir fpga 不同截止频率_学习FPGA将来的出路在哪里?

    1. 在国内 FPGA 最大的应用市场还是通信类,几大厂商的重要收入来源还是华为.中兴.阿朗等,基本上可以直接呼叫原厂 AE 上门支持那种.算法类(如各种 FIR).接口类(如 CPRI.Interl ...

  5. 当前没有可用的服务器_调研Redis高可用两种方案

    导读:Redis是被广泛使用的基础软件之一.对于工程师和,架构师,运维人员来说,了解Redis的高可用方案和背后的原理,是必备的基础知识.本文作者深入分析了Redis高可用的方方面面,并且做了有效总结 ...

  6. fpga运算服务器_SparseArray替代HashMap来提高性能

    SparseArray是Android框架独有的类,在标准的JDK中不存在这个类.它要比 HashMap 节省内存,某些情况下比HashMap性能更好,按照官方问答的解释,主要是因为SparseArr ...

  7. 阿里云FPGA云服务器规格配置、性能及价格表

    阿里云FPGA云服务器一款提供了现场可编程门阵列(FPGA)的计算实例,FPGA云服务器是基于阿里云弹性计算框架,用户可以几分钟内轻松创建FPGA实例,创建自定义的专用硬件加速器.InstanceTy ...

  8. 复旦微电子fpga数据手册_专注FPGA图像加速领域 深维科技跨入发展快车道

    日前,在2019赛灵思开发者大会(美洲站)上,深维科技正式面向全球发布ThunderImage三款重磅图像加速产品:全球最快的JPEG2JPEG缩略图方案.超高性能的JPEG2WebP转码方案及世界级 ...

  9. 与或非逻辑符号_理解FPGA的基础知识——逻辑电路

    FPGA (Field Programmable Gate Aray,现场可编程门阵列)是一种可通过重新编程来实现用户所需逻辑电路的半导体器件.为了便于大家理解FPGA的设计和结构,我们先来简要介绍一 ...

最新文章

  1. 亿级流量架构之服务器扩容思路及问题分析
  2. 【 Notes 】RFID Preliminary Introduction
  3. windows下FileZilla使用sftp(SSH-2)
  4. TF之p2p:基于TF利用p2p模型部分代码实现提高图像的分辨率
  5. CSS 高级布局技巧
  6. 什么原因会导致minor gc运行频繁?
  7. jzoj5231-序列问题【分治】
  8. Dan 计划:重新定义人生的10000个小时
  9. eclipse 搭建python环境
  10. python游戏程序代码大全_python小游戏代码,python小游戏代码大全打枪
  11. 软件工程之需求说明书
  12. 建造者2全部岛屿_勇者斗恶龙建造者2空荡岛流程攻略介绍
  13. VS.NET(C#)-3.13_Panel控件
  14. 不要低估实现难度,聊聊当下热议的“元宇宙”是什么?
  15. cad断点快捷键_CAD中打断于点的快捷键
  16. 做人温和一点,做事狠一点。
  17. 前端如何判断用户是否打开了控制台
  18. 统计学中基础概念说明
  19. 任正非--迎接挑战,苦练内功,迎接春天的到来
  20. 简单解释卡诺图的循环码是如何编制

热门文章

  1. JS 测试网络速度与网络延迟
  2. 2006 IBM SOA主题会开始座席预定工作
  3. Android studio 放大字体
  4. 滴滴 NewSQL 演进之 Fusion 实践
  5. 华东理工计算机类在哪个校区,华东理工大学有几个校区及校区地址 哪个校区最好...
  6. ASEMI整流二极管10A10参数,10A10压降,10A10作用
  7. 计算机主机光驱弹不出来怎么办,电脑dvd光驱打不开,光驱弹不出来解决
  8. 分部积分出现积回去的情况
  9. win10激活出现错误0xc004C003
  10. 拒绝调包 手写实现神经网络(复习专用)