摘要

在一个人工智能大爆发的时代,一个企业不来点人工智能都不好意思说自己是科技企业。随着各公司在各自领域数据量的积累,以及深度学习的强拟合特点,各个公司都会训练出属于自己的模型,那么问题就来了,你有模型,我也有模型,那还比什么?对,就是速度,谁的速度快,谁就厉害。

引言

tensorflow作为谷歌开源的深度学习神器,被学界以及业界广泛的推广,本文就不做过多的介绍,如有需要可以参考如下链接

  • link1
  • link2

人们往往在模型迭代指定次数后,保存一次checkpoint。在模型达到指定要求的精度后就可以上线应用了。NVIDIA tensorrt就是一种专门用于推理的引擎(不可训练),它主要是用于在生产环境中部署深度学习应用程序。以此来提供最大的吞吐量和效率。他主要是获取训练好的模型,这些模型通常是32或者16位的,tensorrt降低在这些精度(int8)来优化网络。具体的tensorrt介绍就不做过多的介绍。

加速步骤(重点)

训练好的inceptionV3模型保存的格式是一大堆的ckpt文件:

首先需要将这些文件转化为.pb的文件,也就是做模型的持久化,我们只需要模型做前向的推理,并得到预测值即可.这个步骤主要分为2步

  • 保存图
  • 把图和参数固定在一起

这一步具体如何操作可以参考这篇博客
接下来就需要构造tenssorrt的推理引擎了(以fp32的为例,int8的话还需要拿典型图片构造校准表)

1.导入必要的库文件

import uff
import tensorrt as trt
import pycuda.driver as cuda
import pycuda.autoinit
from tensorrt.parsers import uffparser

uff是将刚才的pb转化为引擎支持的uff文件,该文件可以序列化,也可以直接当作流传过去。
trt则是用于加速推理的tensorrt
pycyda则是用于显卡cuda编程的
uffparser 解析uff模型的
2.设置一些常量

MODEL_DIR = './model_seg/model.pb'
CHANNEL = 3
HEIGHT = 299
WIDTH = 299
ENGINE_PATH = './model_seg/model_.pb.plan'
INPUT_NODE = 'input'
OUTPUT_NODE = 'InceptionV3/Logits/SpatialSqueeze'
INPUT_SIZE = [CHANNEL, HEIGHT ,WIDTH]
MAX_BATCH_SIZE = 1
MAX_WORKSPACE = 1<<30

MODEL_DIR 刚转的pb模型地址
CHANNEL 图片的通道RGB 3 通道
HEIGHT 图片的高
WIDTH 图片的宽
ENGINE_PATH 等会保存引擎的地址
INPUT_NODE 模型的输入节点
OUTPUT_NODE 模型的输出节点
INPUT_SIZE 输入图片的大小,注意输入的是 CHANNEL, HEIGHT ,WIDTH
MAX_BATCH_SIZE 每次输入几张图片吧
MAX_WORKSPACE 显存的大小1<<30也就是1GB的大小,不信你试试
3.pb转uff 并解析模型

G_LOGGER = trt.infer.ConsoleLogger(trt.infer.LogSeverity.INFO)
uff_model = uff.from_tensorflow_frozen_model(FROZEN_GDEF_PATH, [OUTPUT_NODE])
parser = uffparser.create_uff_parser()
parser.register_input(INPUT_NODE, INPUT_SIZE, 0)
parser.register_output(OUTPUT_NODE)

4.构建引擎

engine = trt.utils.uff_to_trt_engine(G_LOGGER,uff_model,parser,MAX_BATCH_SIZE,MAX_WORKSPACE,datatype=trt.infer.DataType.FLOAT)

5.保存模型

trt.utils.cwrite_engine_to_file('./checkpoint/model_.pb.plan',engine.serialize())

6.调用引擎实现推理

def infer32(context, input_img, batch_size):engine = context.get_engine()assert(engine.get_nb_bindings() == 2)start = time.time()dims = engine.get_binding_dimensions(1).to_DimsCHW()elt_count = dims.C() * dims.H() * dims.W() * batch_sizeinput_img = input_img.astype(np.float32)output = cuda.pagelocked_empty(elt_count, dtype=np.float32)d_input = cuda.mem_alloc(batch_size * input_img.size * input_img.dtype.itemsize)d_output = cuda.mem_alloc(batch_size * output.size * output.dtype.itemsize)bindings = [int(d_input), int(d_output)]stream = cuda.Stream()cuda.memcpy_htod_async(d_input, input_img, stream)context.enqueue(batch_size, bindings, stream.handle, None)cuda.memcpy_dtoh_async(output, d_output, stream)end = time.time()return output

是不是很好懂?

总结

通过上述步骤可以将之前的tensorflow模型转化为rt的引擎,极大的提高推理速度,但是在flask中使用tensorrt的时候由于flask的上下文管理方式容易在成引擎找不到设备上下文,这一点可以用多进程的方式得到解决,在StackOverflow上有人提问这个问题,但是解决方案就是每推理一次都初始化一次cuda这样会影响整个应用的速度。只有单独的开一个进程供cuda进行初始化,这样才不会影响速度,也不会造成上下文冲突,具体的解决方法下一篇博客进行介绍

tensorRt加速tensorflow模型推理(inception V3为例)相关推荐

  1. tensorflow打印模型图_[深度学习]TensorRT加速tensorflow实例

    使用TensorRT加速tensorflow模型的推理应该是很有市场的一种应用了,但是使用Python的.易懂的例子并不多,官方的文档在这方面也是很不友好. 所以,本文旨在提供一个能把原理讲明白,代码 ...

  2. 探讨TensorRT加速AI模型的简易方案 — 以图像超分为例

    AI模型近年来被广泛应用于图像.视频处理,并在超分.降噪.插帧等应用中展现了良好的效果.但由于图像AI模型的计算量大,即便部署在GPU上,有时仍达不到理想的运行速度.为此,NVIDIA推出了Tenso ...

  3. NVIDIA教你用TensorRT加速深度学习推理计算 | 量子位线下沙龙笔记

    主讲人:Ken(何琨)| NVIDIA开发者社区经理 张康 屈鑫 编辑整理 量子位 出品 | 公众号 QbitAI 12月22日,量子位联合NVIDIA英伟达举行了线下交流会,跟现场近百位开发者同学共 ...

  4. 如何使用TensorRT加速深度学习推理

    文章目录 1.TensorRT 简介 2.一个简单的TensorRT示例 3.简要代码演练 3.1.批量输入 4.配置文件 5.优化您的应用 6.使用混合精度计算 7.设置最大工作区大小 8.重用Te ...

  5. [转载]使用 TensorRT 加速深度学习推理 Speeding Up Deep Learning Inference Using TensorRT

    最近在NVIDIA Blog上看到一篇TensorRT教学,挺不错的,收藏了一下.作者是:Josh Park, Sirisha Rella, Siddharth Sharma and Houman A ...

  6. DL | TensorRT将Tensorflow模型转换为uff格式 报错Unable to locate package uff-converter-tf

    前情概要:尝试用Nvidia的tensorRT加速模型,生成tf的pb模型后,用uff的python工具包进一步转换模型时,出现错误. 实验环境:TensorRT 5.0+CUDA10.0的nvidi ...

  7. 【线上分享】探讨TensorRT加速AI模型的简易方案:以图像超分为例

    AI模型近年来广泛应用于图像.视频处理,在超分.降噪.插帧等应用中展现了良好效果.由于图像AI模型的计算量大,即便部署在GPU上,有时仍达不到理想的运行速度.为此,NVIDIA推出了TensorRT, ...

  8. TensorFlow 之基于Inception V3的多标签分类 retrain

    本文参考http://blog.csdn.net/Numeria/article/details/73604339 以及参考开源代码github链接: https://github.com/Barty ...

  9. 模型推理加速系列|如何用ONNX加速BERT特征抽取(附代码)

    简介 近期从事模型推理加速相关项目,所以抽空整理最近的学习经验.本次实验目的在于介绍如何使用ONNXRuntime加速BERT模型推理.实验中的任务是利用BERT抽取输入文本特征,至于BERT在下游任 ...

  10. OpenVINO整合TensorFlow实现推理加速

    作者: Arindam, Yamini, Mustafa, Ritesh, Priya, Chandrakant, Surya, Amar, Sesh 编译:李翊玮 技术的传播采用通常是由用户体验的飞 ...

最新文章

  1. 百度PaddleOCR及云平台OCR API详解及示例
  2. NSDate的具体用法
  3. java update多个字段的值_SQL的update多个字段的写法
  4. 数据库状态标识位flag设计
  5. leetcode 503. 下一个更大元素 II(单调栈)
  6. 前端学习(1271):async/await处理多个异步请求
  7. Django REST framework 序列化
  8. 关于 mac m1 xcode12 编译报错 this target. for architecture arm64等问题解决方案
  9. python程序开机自启动_Linux下Python脚本自启动和定时启动的详细步骤
  10. Java彻底 - WEB容器的侦听具体解释 ServletContextListener
  11. win10超好看的鼠标主题,你也来试试吧
  12. eviews安装教程
  13. StampedLock(印戳锁)详解
  14. win7文件和文件夹可以重名吗_怎么取消WIN7复制同名文件自动重命名
  15. matlab亮度对比度调节公式,图像编辑之对比度调整(亮度对比度的算法公式)
  16. python绘制奥运五环
  17. 向量代数,直线,平面
  18. 运维需要懂产品和运营吗?
  19. 全文搜索引擎ElasticSearch
  20. 2018南京大学计算机夏令营机试

热门文章

  1. Delphi接入科大讯飞语音合成SDK
  2. 基于深度学习的恶意代码分类(一)
  3. js格式化SQL语句
  4. SAP GUI 一些实用技巧分享
  5. Oracle安装步骤(自用)
  6. 计算机北大核心期刊排名2020,2017年版北京大学核心期刊目录4(第八版,2018~2020适用)...
  7. 通达信波段王指标公式主图_通达信波段操作主图指标公式
  8. idea中Gsonformat插件工具使用
  9. Android 自定义一个简版的取色器ColorPicker
  10. 下载新浪股票历史数据