作者 | 刘欣

简介:刘欣,Meteorix,毕业于华中科技大学,前网易游戏技术总监,现任香侬科技算法架构负责人。之前专注游戏引擎工具架构和自动化领域,2018年在GDC和GoogleIO开源Airtest自动化框架,广泛应用于Unity3d/Cocos2dx游戏和网易、暴雪、SE等公司。目前负责香侬NLP领域工程化、算法平台架构。

深度学习模型在训练和测试时,通常使用小批量(mini-batch)的方式将样本组装在一起,这样能充分利用GPU的并行计算特性,加快运算速度。

但在将使用了深度学习模型的服务部署上线时,由于用户请求通常是离散和单次的,若采取传统的循环服务器或多线程服务器,在短时间内有大量请求时,会造成GPU计算资源闲置,用户等待时间线性变长。

基于此,我们开发了service-streamer,它是一个中间件,将服务请求排队组成一个完整的batch,再送进GPU运算。这样可以牺牲最小的时延(默认最大0.1s),提升整体性能,极大优化GPU利用率。

功能特色


  • 简单易用: 只需添加两三行代码即可让模型服务提速上数十倍。
  • 处理高速: 高QPS、低延迟,专门针对速度做了优化,见基准测试。
  • 扩展性好: 可轻松扩展到多GPU场景,处理大量请求,见分布式。
  • 适用性强: 中间件,适用于所有深度学习框架和web框架。

安装步


可通过pip安装,要求Python>=3.5:

pip install service_streamer

五分钟搭建BERT服务

为了演示API使用方法,service-streamer提供了一个完整的教程和示例代码。如何在五分钟搭建起基于BERT模型的完形填空服务,每秒处理1000+请求


GitHub链接:https://github.com/ShannonAI/service-streamer

1、首先我们定义一个完型填空模型(bert_model.py),其predict方法接受批量的句子,并给出每个句子中[MASK]位置的预测结果。

class TextInfillingModel (object);

...

batch=["twinkletwinkle [MASK] star",

"Happy birthday to [MASK]",

'the answer to life, the [MASK], andeverything']

model=TextaInfillingModel()

outputs=model.predict(batch)

print(outputs)

#['little', 'you', 'universe' ]

2、然后使用Flask将模型封装成web服务flask_example.py。这时候你的web服务每秒钟只能完成12句请求。

model=TextInfillingModel()

@app.route("/naive", methods=["POST"])

def naive_predict( ):

inputs =request.form.getlist("s")

outputs =model.predict(inputs)

 return jsonify(outputs)

app.run(port=5005)

3、下面我们通过service_streamer封装你的模型函数,三行代码使BERT服务的预测速度达到每秒200+句(16倍QPS)。

from service_streamer import ThreadStreamer

streamer=ThreadedStreamer (model.predict,batch_size=64, max_latency=0.1)

@app.route("/stream", methods=["POST"])

def stream_predict( ):

inputs =request.form.getlist("s")

outputs= streamer.predict(inputs)

returnisonify(outputs)

app.run(port=5005,debug=False)

4、最后,我们利用Streamer封装模型,启动多个GPU worker,充分利用多卡性能实现每秒1000+句(80倍QPS)。

import multiprocessing

from service_streamer import ManagedModel, Streamer

multiprocessing.set_start_method("spawn", force=True)

class ManagedBertModel(ManagedModel):

 def init_model(self):

self.model = TextInfillingModel( )

 def predict(self, batch):

 return self.model.predict(batch)

streamer =Streamer(ManageBertModel, batch_size=64, max_latency=0.1,

worker_num = 8, cuda_devices=(0,1,2,3))

app.run(port=5005,debug=False)

运行flask_multigpu_example.py这样即可启动8个GPUworker,平均分配在4张卡上。

更多指南


除了上面的5分钟教程,service-streamer还提供了:

  • 分布式API使用方法,可以配合gunicorn实现web server和gpuworker的分布式;

  • 异步FutureAPI,在本地高频小batch调用的情形下如何利用service-streamer加速;

  • 性能Benchmark,利用wrk进行单卡和多卡的性能测试数据。

API


快速入

通常深度学习的inference按batch输入会比较快。

outputs= model.predict(batch_inputs)

用service_streamer中间件封装predict函数,将request排队成一个完整的batch,再送进GPU。牺牲一定的时延(默认最大0.1s),提升整体性能,极大提高GPU利用率。

from service_streamer import ThreadedStreamer

Streamer封装batch_predict函数


streamer= ThreadedStreamer(model.predict, batch_size=64, max_latency=0.1)

Streamer封装batch_predict函数


outputs= streamer.predict(batch_inouts)

然后你的web server需要开启多线程(或协程)即可。

短短几行代码,通常可以实现数十(batch_size/batch_per_request)倍的加速。

分布式GPU worker

上面的例子是在web server进程中,开启子线程作为GPUworker进行 batch predict,用线程间队列进行通信和排队。

实际项目中web server的性能(QPS)远高于GPU模型的性能,所以我们支持一个web server搭配多个GPUworker进程。

import multiprocessing;

multiprocessing.set_start_method("spawn",force=True)

from service_streamer import Streamer

#spawn4gpu worker进程

streamer= Streamer(model.predict, 64, 0.1,worker_num=4)

outputs= streamer.redict(batch)

Streamer默认采用spawn子进程运行gpuworker,利用进程间队列进行通信和排队,将大量的请求分配到多个worker中处理,再将模型batch predict的结果传回到对应的web server,并且返回到对应的http response。

上面这种方式定义简单,但是主进程初始化模型,多占了一份显存,并且模型只能运行在同一块GPU上,所以我们提供了ManageModel类,方便模型lazy初始化和迁移,以支持多GPU。 from service_streamer import ManagedModel class ManagedBertModel(ManagedModel):    def init_model(self):       self.model = Model( )   def predict(self, batch):      return self.model.predict(batch)  # spawn4gpu worker进程,平均分数在0/1/2/3GPU
streamer=Streamer(ManagedBertModel, 64, 0.1,worker_num=4,cuda_devices=(0,1,2,3))outputs = streamer.predict(batch) 分布式web server 有时候,你的web server中需要进行一些CPU密集型计算,比如图像、文本预处理,再分配到GPU worker进入模型。CPU资源往往会成为性能瓶颈,于是我们也提供了多web server搭配(单个或多个)GPU worker的模式。 使用跟任意RedisStreamer指定所有web server 和GPU worke的模式。 # 默认参数可以省略,使用localhost:6379streamer = RedisStreamer(redis_broker="172.22.22.22:6379") 然后跟任意python web server的部署一样,用gunicorn或uwsgi实现反向代理和负载均衡。 cd examplegunicorn -c redis_streamer_gunicorn.py flask_example:app 这样每个请求会负载均衡到每个web server中进行CPU预处理,然后均匀的分布到GPU worke中进行模型predict。 Future API 如果你使用过任意concurrent库,应该对future不陌生。当你的使用场景不是web service,又想使用service_streamer进行排队或者分布式GPU计算,可以直接使用Future API。 from service_streamer import ThreadedStreamerstreamer = ThreadedStreamer(model.predict, 64, 0.1) xs ={}for i in range(200):    future =streamer.submit(["Happy birthday to [MASK]",              "Today is my lucky [MASK]"])     xs.append(future) 先拿到所有future对象,再等待异步返回for future in xs:     outputs = future.result()    print(outputs) 基准测试如何做基准测试 我们使用wrk来使做基准测试。 环境

  • GPU : Titan Xp

  • cuda : 9.0

  • python : 1.1

单个GPU进程 # startflask threaded serverpython example/flask_example.py #benchmark naive api without service_streamer./wrk -t 4 -c 128 -d 20s --timeout=10s -s scripts/streamer.luahttp://127.0.0.1:5005/naive
 #benchmark stream api with service_streamer./wrk -t 4 -c 128 -d 20s --timeout=10s -s scripts/streamer.luahttp://127.0.0.1:5005/naive

多个GPU进程 这里对比单web server进程的情况下,多GPU worker的性能,验证通过和负载均衡机制的性能损耗。Flask多线程server已经成为性能瓶颈,故采用gevent server。
 利用Future API使用多个GPU 为了规避web server的性能瓶颈,我们使用底层Future API本地测试多GPU worker的benchmark。 可以看出service_streamer的性能跟GPUworker数量及乎成线性关系,其中进程间通信的效率略高于redis通信。

(*本文为 AI科技大本营转载文章,转载请联系原作者)

社群福利

扫码添加小助手,回复:大会,加入2019 AI开发者大会福利群,每周一、三、五更新技术福利,还有不定期的抽奖活动~

精彩推荐

60+技术大咖与你相约 2019 AI ProCon!大会早鸟票已售罄,优惠票速抢进行中......2019 AI开发者大会将于9月6日-7日在北京举行,这一届AI开发者大会有哪些亮点?一线公司的大牛们都在关注什么?AI行业的风向是什么?2019 AI开发者大会,倾听大牛分享,聚焦技术实践,和万千开发者共成长。

推荐阅读

  • 通俗易懂:图解10大CNN网络架构

  • BERT的成功是否依赖于虚假相关的统计线索

  • AI+DevOps正当时

  • 5天破10亿的哪吒,为啥这么火,Python来分析

  • 5G+AI重新定义生老病死

  • 如何从零开始设计一颗芯片?

  • 在其他国家被揭穿骗子又盯上非洲? 这几个骗子公司可把非洲人民坑苦了…

  • 国内首款 5G 机型开售;Google Chrome 大部分插件无人用;Firefox 69 Beta 9 发布

你点的每个“在看”,我都认真当成了喜欢

五分钟搭建BERT服务,实现1000+QPS​,这个Service-Streamer做到了相关推荐

  1. 开源项目 | 五分钟搭建BERT服务,实现1000+QPS

    作者丨刘欣 单位丨香侬科技算法架构负责人 研究方向丨NLP工程化.算法平台架构 深度学习模型在训练和测试时,通常使用小批量(mini-batch)的方式将样本组装在一起,这样能充分利用 GPU 的并行 ...

  2. 群晖如何建php网站_折腾群晖笔记:使用群晖自带的web功能 五分钟搭建typecho个人博客...

    折腾群晖笔记:使用群晖自带的web功能 五分钟搭建typecho个人博客 2019-07-05 08:30:00 118点赞 735收藏 118评论 你是AMD Yes党?还是intel和NVIDIA ...

  3. 五分钟搭建一个基于BERT的NER模型

    BERT 简介 BERT是2018年google 提出来的预训练的语言模型,并且它打破很多NLP领域的任务记录,其提出在nlp的领域具有重要意义.预训练的(pre-train)的语言模型通过无监督的学 ...

  4. 十分钟搭建微服务框架(SpringBoot +Dubbo+Docker+Jenkins源码)

    这套系统搭建完之后,那可就厉害了: 微服务架构 你的整个应用程序将会被拆分成一个个功能独立的子系统,独立运行,系统与系统之间通过RPC接口通信.这样这些系统之间的耦合度大大降低,你的系统将非常容易扩展 ...

  5. CentOS基础系列五 :搭建FTP服务(详细图解)

    一.FTP服务介绍 FTP ( File Transfer Protocol,文件传输服务)服务是一种专门用于文件传输的服务,该服务使用的是文件传输协议,使用该服务将极大地方便文件的传输与管理.其最主 ...

  6. [原]五分钟搭建gitserver

    本来在忙一些事情,结果刚才突然收到一个临时的事情,号称很着急. 问了一下,原来是需要在本地搭建一个git库,但其实之前我是有做过gitserver的,不过是在阿里云(部分分布在青云)上,而且目前在使用 ...

  7. 五分钟搭建基于 Prometheus + Grafana 实时监控系统

    文章目录 Prometheus + Grafana 实时监控系统 Prometheus + Grafana 实时监控系统 依赖镜像包 启动 node-exporter check 端口 node_ex ...

  8. 五分钟搭建ftp服务器,真的不含糊

    1.ftp命令的使用需要vsftpd服务的支持,安装vsftpd服务,"yum -y install vsftpd" 2.输入ftp,命令是找不到的,这是因为还需要安装ftp的客户 ...

  9. 五分钟搭建django-admin-honey简单蜜罐应用

    最近工作比较闲,又恰逢即将迎来HVV的时期,简单学习下,搭建一个最简单的django扩展蜜罐系统. django-admin-honey简介 django-admin-honeypot : 一个仿造D ...

最新文章

  1. matlab i型级联filter,Matlab中filter,conv,impz用法(最新整理)
  2. linux18.04安装显卡驱动,详细介绍ubuntu18.04安装NVIDIA显卡驱动(亲测有效!)
  3. ubuntu配置Android指南
  4. mysql知识总结体会博客_可能是全网最好的MySQL重要知识点/面试题总结||CSDN博客精选...
  5. tensorboardX笔记:理解graph
  6. 人工智能与模式识别 --中国计算机学会推荐国际学术刊物
  7. 使用camera_calibration对xtion pro live深度相机进行参数标定,rosdep install camera_calibration报错Rosdep cannot find
  8. HBase学习笔记2 - HBase shell常用命令
  9. android 系统亮度,android 设置系统屏幕亮度
  10. linux下的静态库与动态库
  11. Linux软链接的使用
  12. ubuntu服务器网站备份,用 Ubuntu 建立 Time Machine 备份服务器
  13. Pod--初始化容器
  14. cxp文件查看 欧姆龙_欧姆龙PLC CXP编程软件外文手册
  15. 软件测试报告模板怎么写,这篇文章告诉你
  16. 会议室管理前端页面_12个非常不错的免费HTML后台管理模板
  17. 技术小卡之Redis 管道技术
  18. 仙剑奇侠传3 全开注册表改法
  19. Pytorch中的model.modules()和model.children()的区别
  20. 小程序近期频繁更新 背后原因全面解读

热门文章

  1. 区域链实践第一步——区域链测试环境搭建
  2. AD上删除了Exchange容器,再重装时报'找不到企业组织容器
  3. spring mvc文件上传小例子
  4. java 线程 thread.join_java线程Thread的join方法。
  5. 指针的底层原理与使用
  6. android 动态获取权限有哪些,Android 6.0+ 动态获取权限
  7. c语言关闭其他进程tcp_tcp链接迁移
  8. 判断两个解的支配关系
  9. Leetcode 213.大家劫舍II
  10. 使用datatables实现列宽设置、水平滚动条、显示某列部分内容