tensorrt轻松部署高性能dnn推理_基于TensorRT车辆实时推理优化
基于TensorRT车辆实时推理优化
Optimizing NVIDIA TensorRT Conversion for Real-time Inference on Autonomous Vehicles
自动驾驶系统使用各种神经网络模型,这些模型要求在GPU上进行极其精确和高效的计算。Zoox是一家全新开发robotaxis的初创公司,充分利用了NVIDIA硬盘的高性能、节能计算功能。最近,Zoox在旧金山发布了一个一小时的全自动驾驶,详细展示了他们的AI堆栈。
与TensorFlow相比,NVIDIA TensorRT提供了显著的加速(fp32为2-6x,Zoox网络为9-19x),支持使用CUDA流的异步和并发推理能力。Zoox视觉/激光雷达/雷达/预测算法严重依赖于深部神经网络,这些神经网络在我们的车辆上都运行在NVIDIA gpu上,并且大多使用TensorRT部署。
TensorRT是一个用于高性能深度学习推理的SDK,它为深度学习推理应用程序提供低延迟和高吞吐量。
可以使用各种转换管道将模型转换为TensorRT引擎。例如,使用Caffe训练的模型可以使用Caffe解析器轻松地转换为TensorRT运行时。
但是,TensorFlow模型需要使用ONNX(开放式神经网络交换)转换为TensorRT引擎。本文中介绍的工具是针对TensorFlow的,但是这些原则也可以应用到其他的训练框架中。 在为所有这些深层神经网络部署和维护TensorRT引擎的过程中,我们发现了以下痛点: ONNX和TensorRT只支持有限的TensorFlow操作集。
内核大小和步幅的某些组合可能会对TensorRT造成副作用。
迁移到精度降低的推理或TensorRT升级可能导致性能回归。
在Zoox,我们开发了一组工具来促进TensorRT引擎的部署、验证和维护,如图2所示。在下面的部分中,我们将详细介绍这些模块。
TensorRT conversion checker
TensorRT转换检查器的目标是帮助您在训练网络之前识别可能的转换失败。checker是轻量级的,按设计是最小的(在本文后面的代码示例中突出显示)。在训练之前,它会在所构建的网络上触发一个TensorRT转换过程。我们只有在转换成功后才开始训练。
Figure 2. Zoox TensorRT conversion pipeline overview.
下面的代码示例显示了TensorRT转换检查器。要使用插件,用户只需要导入数据包,在网络构建期间注册输入/输出节点,然后在训练开始之前触发转换检查。
import trt_checker
class Lenet5():
def network(self, X):
input = tf.identity(X, name = "input")
# Registers the input in the conversion checker.
trt_checker.register_input(input)
# Network definition.
...
# Output node.
output = tf.identity(logits, name="output")
# Registers the output node in the conversion checker.
trt_checker.register_output(output)
return output
def main():
...
# Checks if the model can be converted to trt.
conversion_result = trt_checker.check_conversion()
# Only train when trt conversion is successful.
if conversion_result:
accuracy = lenet_network.train()
Output deviation inspection
此插件的目标是在运行整个特定于模型的计算之前,报告转换的TensorRT引擎的潜在精度回归。这个插件在转换后的TensorRT引擎和原始TensorFlow图上运行推理,输入完全相同(由用户随机生成或指定)。然后报告输出偏差的分布,给开发人员一个潜在精度回归的预警。此模块是逐层检查模块的构建块。
Figure 3. Output deviation inspection
Layer-by-layer inspection
下面的代码示例显示逐层检查:
def layer_by_layer_analysis(graph, input_layer):
median_error = []
for layer in graph.layers():
errors = convert(graph, input=input_layer, output=layer)
median_error.append(median(errors))
plot(median_error)
如果观察到精度回归,我们希望找出TensorRT引擎中的哪个层或操作对回归有显著贡献。这促使我们开发了逐层检测模块。调用时,模块为每个中间操作运行一个转换作业,并报告此特定操作生成的中值/最大错误(如图4所示)。当研究在不同版本的TensorRT中观察到的不同行为时,此模块非常有用。
Figure 4. Example regression observed in semantic segmentation when upgrading from TensorRT 5.1.5 to TensorRT 7.0.
图4显示了这种回归的一个例子,在这个例子中,我们观察到语义分割输出有轻微的回归。我们对TensorRT 5.1引擎和TensorRT 7.0引擎进行了逐层检查,然后绘制了每层的中间误差。 图5显示了每一层产生的中值误差。我们可以看到在这个特定网络的上采样层中可能存在一个bug。基于这些信息,我们能够在一个较小的网络上重现这种回归,并将此错误报告给NVIDIA。此错误现在已在TensorRT 7.1中修复。
图5. 图4中使用的两台TensorRT发动机的逐层检查结果。橙色线显示了TensorRT 7.0推理输出与TensorFlow推理输出相比的中间误差。蓝线显示了TensorRT 5.0引擎生成的结果。上采样层的误差分布有显著差异。
Latency flame graph
为了可视化推理中的瓶颈并找出可能的优化操作,我们将TensorRT剖面仪生成的逐层计时信息绘制成火焰图。计时详细信息根据每个层的名称范围分组,如图6所示。这使我们能够看到网络的哪个部分花费的时间比预期的要长。
Figure 6. Latency flame graph on Inception Net. The 1767 samples shown in this graph indicates that a forward pass on this network takes 1.767 ms.
Automated conversion pipeline
在Zoox,我们维护一个自动转换管道,跟踪每个模型使用的转换选项。当触发时,自动转换管道将所有记录的模型转换为TensorRT引擎,并将它们上载到云中进行部署。它还为新转换的TensorRT引擎运行验证作业以验证准确性。这个管道帮助我们只用一个命令就可以将所有现有的模型升级到TensorRT的新版本。
Incompatible graph test suite
Zoox维护一个TensorFlow到TensorRT的转换测试套件。它测试了从TensorFlow图到tensort引擎的转换失败案例,以及报告的NVIDIA错误识别。
每个测试构建一个TensorFlow图,将其转换为TensorRT,并将输出偏差与TensorFlow图进行比较。使用此测试套件,我们不仅可以向Zoox工程师演示哪些图形结构或操作可能不适用于TensorRT,而且还可以检测升级到TensorRT的新版本时修复了哪些回归。
Summary
在这篇文章中,我们介绍了Zoox-TensorRT转换管道中的几个特性。TensorRT转换检查器参与神经网络训练的早期阶段,以确保在您浪费时间和资源进行全面训练之前发现不兼容的操作。可以在每一层调用推理精度验证来识别不利于降低精度计算的操作。详细的分析揭示了不必要的计算,这些计算不是在TensorRT内部优化的,但是可以通过在图构建期间简单的代码更改来优化。
自动转换管道帮助您验证每个TensorRT升级或模型重新转换。利用该流水线,我们成功地为神经网络在Zoox自主驾驶平台上执行各种流线型感知任务提供了TensorRT转换支持。
tensorrt轻松部署高性能dnn推理_基于TensorRT车辆实时推理优化相关推荐
- tensorrt轻松部署高性能dnn推理_实战教程:TensorRT中递归神经网络的介绍(中文字幕)...
NVIDIA TensorRT是一个高性能的深度学习推理优化器和运行时,它提供低延迟和高吞吐量.TensorRT可以从每个深度学习框架导入经过训练的模型,从而轻松地创建可以集成到大型应用程序和服务中的 ...
- tensorrt轻松部署高性能dnn推理_部署环境之:tensorRT的插件
TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟.高吞吐率的部署推理.TensorRT可用于对超大规模数据中心.嵌入式平台或自动驾驶平台进行推理加速 ...
- tensorrt轻松部署高性能dnn推理_NVIDIA TensorRT高性能深度学习推理
NVIDIA TensorRT高性能深度学习推理 NVIDIA TensorRT™ 是用于高性能深度学习推理的 SDK.此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和 ...
- tensorrt轻松部署高性能dnn推理_NVIDIA Triton推理服务器助力深度学习推理
NVIDIA Triton推理服务器(NVIDIA Triton Inference Server),此前称为TensorRT推理服务器(TensorRT Inference Server),现可通过 ...
- 基于TensorRT车辆实时推理优化
基于TensorRT车辆实时推理优化 Optimizing NVIDIA TensorRT Conversion for Real-time Inference on Autonomous Vehic ...
- tensorrt安装_基于TensorRT的BERT推断加速与服务部署
BERT的出现真是广大NLPer的福音,在很多任务上能取得显著提升.不例外,作者在工作过程中也使用了BERT进行下游任务训练,但在感叹BERT真香的时候,它及其漫长的推断时间让人感到很为难.本文就记录 ...
- .net 实时通信_基于 RabbitMQ 的实时消息推送
实现服务器端推送的几种方式 Web 应用都是基于 HTTP 协议的请求/响应模式,无法像 TCP 协议那样保持长连接,因此 Web 应用就很难像手机那样实现实时的消息推送.就目前来看,Web 应用的消 ...
- python 3d打印_基于Python的结构拓扑优化与3D打印试验研究
收稿日期:2017 -05 -22 修回日期:2017 -06 -01 第 35 卷 第 8 期 计 算 机 仿 真 2018 年 8 月 文章编号:1006 -9348( 2018) 08 -017 ...
- stm32中用到的实时系统_基于STM32的实时语音处理系统设计
基于 STM32 的实时语音处理系统设计 [摘要]设计一个基于 STM32 的实时语音处理系统.硬件模块通过放大. 除杂完成将语音信号转换成处理器能够进行高效处理的有效数字信号, 软件部分 主要涉及到 ...
最新文章
- Javascript简明教程四 作用域
- 使用NeMo快速完成NLP中的信息抽取任务,英伟达专家实战讲解,内附代码
- SigmaPlot 12.0 中文版 for Win 专业的科研绘图下载及教材
- 30道Web前端面试题,你能答出多少道?
- Centos 7 KVM安装win10
- HTTP协议/RTSP协议/RTMP协议的区别
- 百度SEO EBCMS(易贝管理系统) v1.2.0
- /proc/sys/net/ipv4 详解2
- C++11新宠-Lambda函数学习
- 容器混合云发展引争议,专家亚马逊云科技中国峰会共探讨
- MySQL数据库基本操作1
- golang导入包的理解
- Query and transform XML
- ie调试html代码,IE下的调试工具IE WebDeveloper
- pmp 资料_1年 = 15300订阅 + 超100万次收听 (感恩有您,这些PMP备考资料您值得拥有!)...
- AR8035 linux
- vsftpd 安装及简单配置
- 遥感水文前景_【充电】学遥感必读的十本专业书
- 岩板铺地好吗_岩板铺客厅地面好吗 比800*800的瓷砖更美观又大气?
- Android卡顿掉帧问题分析之原理篇
热门文章
- python中if嵌套语句_python_if判断_三_if的嵌套
- java string查找_查找输出程序(Java String类)
- stl vector 函数_vector :: front()函数以及C ++ STL中的示例
- stl max函数_std :: max_element()函数以及C ++ STL中的示例
- 面试官:讲一下Jvm中如何判断对象的生死?
- golang获取程序运行路径
- 服务器经常崩溃??让我们来看看简单的内存知识:C语言——内存管理
- html文件打开多出很多数字,【求助】页面上显示几个数字,打开html的时候希望能滚动起来...
- python求123逆序数_应用Python来计算排列中的逆序数个数
- 双代号网络图基础算法_软考网络工程师之系统开发和运行基础(软件分类、测试、模型)...