使用TensorRT集成推理inference

使用TensorRT集成进行推理测试。

使用ResNet50模型对每个GPU进行推理,并对其它模型进行性能比较,最后与其它服务器进行比较测试。

  1. ResNet-50 Inference
    performance: Throughput vs Batch size

在每个GPU上使用不同的批处理大小(从1到32)运行带有预训练的ResNet50模型的吞吐量测试。

图1显示了吞吐量(帧/秒)的结果。

结果在gpu和潜伏期(在右纵轴上表示)上是一致的。

Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s

上面的曲线图显示,使用Batchsize为1-8的批处理可以达到7ms的延迟,并且从y轴来看,当Batchsize为4时,在7ms延迟窗口内我们可以得到670个帧/秒。

在运行测试时,我们发现默认情况下推理inference是在设备0上进行的,这意味着当前的TensorRT™ 推理引擎不能与GPU-GPU通信一起工作以最大限度地利用服务器中可用的GPU。如果目标是在多个GPU中运行同一个图形来提高吞吐量,Nvidia建议现在使用原生TensorFlow。

另一方面,TensorRT推理服务器(TRTIS)支持多个GPU,但不支持运行分布在多个GPU上的单个推理。TRTIS可以在多个GPU上运行多个模型(和/或同一模型的多个实例)以提高吞吐量。

2.All Models:
Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

使用不同的神经模型在不同的Batchsize中进行推理测试。

以Batchsize大小1、2、4、8、26和32显示运行推理inference的吞吐量和延迟。ResNet50以最低的延迟产生最高的吞吐量(图像/秒)。

Figure 3. Latency Inference Performance
with Several Neural Models and Batch Sizes

3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on
R7425-T4-16GB Server versus other servers

使用几种模型在服务器R740-P4和R7245-P4上进行了推理测试,并将它们的结果与R7425-T4-16GB的结果进行了比较。服务器R7425-T4-16GB的性能比ResNet50型号上的其它服务器快1.8倍,延迟只有一半。

使用TensorRT集成推理inference相关推荐

  1. 中继TensorRT集成

    中继TensorRT集成 介绍 NVIDIA TensorRT是用于优化深度学习推理的库.这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提 ...

  2. TensorRT网络推理c++实现

    前言:本文给出了yolov3-tiny网络TensorRT推理步骤实现的c++代码,手动计算显存与内存的大小,计算yolo层输出框的位置. demo函数: /*-------------------- ...

  3. TensorRT(6)-INT8 inference

    这一节通过官方例程 介绍 INT8 inference mode. 例程位于 /usr/src/tensorrt/samples/sampleINT8 ,是基于mnist的,大体流程是一致的. 流程同 ...

  4. Jetson AGX Xavier刷机+安装opencv+使用TensorRT加速推理yolo全过程+心路历程

    为了完成导师交代的任务,卑微的打工人开始了没有停息的斗争.尽管没有人阻碍你划水摸鱼,但是问题一天不解决,自由就一天也不会来到. 我 向 往 自 由 !!!!!!!!!! 通往自由的道路就是在Xavie ...

  5. tensorrt优化笔记

    常见网络tensorrt c++版实现: https://github.com/wang-xinyu/tensorrtx tensorrt 和pytorch结果不一致: TensorRT加速pytor ...

  6. 10分钟内基于gpu的目标检测

    10分钟内基于gpu的目标检测 Object Detection on GPUs in 10 Minutes 目标检测仍然是自动驾驶和智能视频分析等应用的主要驱动力.目标检测应用程序需要使用大量数据集 ...

  7. NVIDIA可编程推理加速器TensorRT学习笔记(三)——加速推理

    文章目录 简单张量RT示例 将预训练的图像分割 PyTorch 模型转换为 ONNX 将 ONNX 模型导入 TensorRT,生成引擎并执行推理 对输入进行批处理 分析应用程序 优化您的应用程序 使 ...

  8. TensorRT:在NVIDIA各种GPU硬件平台下运行的高性能推理C++库【Pytorch->ONNX->TensorRT】【实现神经网络提速(读取ONNX模型并运行)】【目前对ONNX的支持最好】

    tensorRT 基本网络构建 创建builder 创建network 创建config network添加输入 network添加层,绑定输入 network mark output,指定输出节点 ...

  9. Paddle Inference原生推理库

    Paddle Inference原生推理库 深度学习一般分为训练和推理两个部分,训练是神经网络"学习"的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型.有了训 ...

最新文章

  1. tornado压力测试
  2. python 中的下划线
  3. 4000字,25张精美交互图表,开启Plotly Express之旅!
  4. 常用正则表达式整理【总结】
  5. Android 性能优化:使用 Lint 优化代码、去除多余资源,减少APP的size
  6. wkhtmltopdf中文显示空白或者乱码方框
  7. Access访问错误集锦:Access关键字
  8. eclipse启动时间很慢的调优解决
  9. 管理感悟:如何处理不干活的主管
  10. Linux网络嗅探工具,微软“雪藏”的七个Windows 10强力工具
  11. sqlmap 基本使用教程--个人笔记
  12. Java EE eclipse 优化配置(2020)
  13. 路由器桥接(WIFI无线中继)设置及摆放位置图解
  14. QThread如何优雅实现暂停(挂起)功能
  15. perl 中使用 cpan 工具
  16. 手机浏览器 css3,css3在不同型号手机浏览器上的兼容一览表
  17. Java——将汉字转为汉语拼音工具类
  18. vant 底部导航栏 中间凸起
  19. 天问一号入轨火星成功,火星,我们来了!
  20. Kettle教程(三):Excel转换文本

热门文章

  1. 2022-2028年中国加密货币交易所市场研究及前瞻分析报告
  2. 2022-2028年中国床上用品行业投资分析及前景预测报告
  3. 用python给自己写一个加密算法
  4. 自监督学习现状和未来
  5. 新一代图像AI ISP技术
  6. CUDA运行时 Runtime(四)
  7. 深度学习调参体验(二)
  8. 交通信号灯检测与行人过马路策略
  9. JavaWeb--过滤器
  10. A + B Problem