NVIDIA TensorRT高性能深度学习推理

NVIDIA TensorRT™
是用于高性能深度学习推理的 SDK。此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和高吞吐量。


在推理过程中,基于 TensorRT 的应用程序的执行速度可比 CPU 平台的速度快 40 倍。借助 TensorRT,您可以优化在所有主要框架中训练的神经网络模型,精确校正低精度,并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台中。

TensorRT 以 NVIDIA 的并行编程模型 CUDA 为基础构建而成,可帮助您利用 CUDA-X 中的库、开发工具和技术,针对人工智能、自主机器、高性能计算和图形优化所有深度学习框架中的推理。

TensorRT 针对多种深度学习推理应用的生产部署提供 INT8 和 FP16 优化,例如视频流式传输、语音识别、推荐和自然语言处理。推理精度降低后可显著减少应用延迟,这恰巧满足了许多实时服务、自动和嵌入式应用的要求。

可以从每个深度学习框架中将已训练模型导入到 TensorRT。应用优化后,TensorRT 选择平台特定的内核,在数据中心、Jetson 嵌入式平台以及 NVIDIA DRIVE 自动驾驶平台上更大限度提升 Tesla GPU 的性能。

借助 TensorRT,开发者可专注于创建新颖的 AI 支持应用,无需费力调节性能来部署推理工作。

TensorRT 优化与性能

与所有主要框架集成

NVIDIA 与深度学习框架开发者紧密合作,使用 TensorRT 在 AI 平台上实现优化的推理性能。如果您的训练模型采用 ONNX 格式或其他热门框架(例如 TensorFlow 和 MATLAB),您可以通过一些简单的方法将模型导入到 TensorRT 以进行推理。下面介绍了一些集成,其中包含了新手入门信息。

TensorRT 和 TensorFlow 已紧密集成,因此您可以同时尽享 TensorFlow 的灵活性和 TensorRT 的超强优化性能。

MATLAB 已通过 GPU 编码器实现与 TensorRT 的集成,这能协助工程师和科学家在使用 MATLAB 时为 Jetson、DRIVE 和 Tesla 平台自动生成高性能推理引擎。

TensorRT 提供了一个 ONNX 解析器,因此您可以轻松地从框架(例如 Caffe 2、Chainer、Microsoft
Cognitive Toolkit、MxNet 和 PyTorch)中将 ONNX 模型导入到 TensorRT。

TensorRT 还与 ONNX Runtime 集成,助您以 ONNX 格式轻松实现机器学习模型的高性能推理。

如果您在专有或自定义框架中执行深度学习训练,请使用 TensorRT C++
API 来导入和加速模型。

“通过在 V100 上使用Tensor 核心、新近优化的 CUDA 库以及 TF-TRT 后端,我们能将原本就很快的深度学习 (DL) 网络速度再提升 4 倍”

公布 TensorRT
7.1:新功能
TensorRT 7.1 针对 NVIDIA A100 GPU 进行了优化并加入了新优化,现可使用 INT8 精度加速 BERT 推理,实现高达 V100 GPU 六倍的性能。NVIDIA 开发者计划成员可于 2020 年夏季下载 TensorRT 7.1。

TensorRT 7.0(当前版本)包含:
新编译器,可对语音和异常检测中的常用时间递归神经网络进行加速
对 20 多种新 ONNX 操作的支持,这些操作可对 BERT、TacoTron 2 和 WaveRNN 等关键的语音模型进行加速
对动态形状的扩展支持,可实现关键的会话式 AI 模型
新版插件、解析器
BERT、Mask-RCNN、Faster-RCNN、NCF 和 OpenNMT 的新示例

其他资源

概览
NGC 中的 TensorRT 容器、模型和脚本
运行 TensorRT 的“Hello
World”(示例代码)
将 ONNX 用作输入,运行 TensorRT 的“Hello
World”(示例代码)
使用自定义校准以 INT8 精度执行推理(示例代码)
TensorRT 简介(网络研讨会)
使用 TensorRT 执行
8 位推理(网络研讨会)

会话式 AI

使用 TensorRT 通过BERT 实现实时自然语言理解(博客)
使用 TensorRT 进行自动语音识别 (Notebook)
使用 TensorRT 对实时文字转语音进行加速(博客)使用 BERT 实现NLU (Notebook) (Notebook)
实时文字转语音(示例)基于序列到序列 (seq2seq) 模型的神经网络机器翻译 (NMT)(示例代码)
逐层构建 RNN 网络(示例代码)

开始实操训练

NVIDIA 深度学习学院 (DLI) 为 AI 和加速计算领域的开发者、数据科学家和研究人员提供实操训练。立即参加关于使用 TensorRT 优化和部署 TensorFlow 模型以及“使用 TensorRT 部署智能视频分析”的自定进度选修课程,获取 TensorRT 实操经验。

适用范围

NVIDIA 开发者计划会员可访问 TensorRT 产品页面,免费使用 TensorRT 进行用于开发和部署。最新版本的插件、解析器和示例也以开源形式提供,可从 TensorRT GitHub 资源库获取。

开发者还可以通过 NGC 容器注册表中的 TensorRT 容器获得 TensorRT。

TensorRT 已纳入:
用于在计算机视觉和智能视频分析 (IVA) 应用中进行实时流分析的 NVIDIA Deepstream SDK适用于 NVIDIA DRIVE PX2 自动驾驶平台的 NVIDIA DriveInstall适用于 Jetson TX1、TX2嵌入式平台的 NVIDIA Jetpack

NVIDIA TensorRT高性能深度学习推理相关推荐

  1. tensorrt轻松部署高性能dnn推理_NVIDIA TensorRT高性能深度学习推理

    NVIDIA TensorRT高性能深度学习推理 NVIDIA TensorRT™ 是用于高性能深度学习推理的 SDK.此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和 ...

  2. [转载]使用 TensorRT 加速深度学习推理 Speeding Up Deep Learning Inference Using TensorRT

    最近在NVIDIA Blog上看到一篇TensorRT教学,挺不错的,收藏了一下.作者是:Josh Park, Sirisha Rella, Siddharth Sharma and Houman A ...

  3. 线上报名 | 高性能深度学习推理引擎 TensorRT 实战编程讲解

    NVIDIA TensorRT™ 是一种高性能深度学习推理优化器和运行时提供低延迟和高通量的深度学习推理的应用程序.使用 TensorRT,您可以优化神经网络模型,精确地校准低精度,并最终将模型部署到 ...

  4. TensorRT是NVIDIA开发的深度学习推理工具,只支持推理,不支持训练 引

    . TensorRT是NVIDIA开发的深度学习推理工具,只支持推理,不支持训练:   目前TensorRT3已经支持Caffe.Caffe2.TensorFlow.MxNet.Pytorch等主流深 ...

  5. NVIDIA教你用TensorRT加速深度学习推理计算 | 量子位线下沙龙笔记

    主讲人:Ken(何琨)| NVIDIA开发者社区经理 张康 屈鑫 编辑整理 量子位 出品 | 公众号 QbitAI 12月22日,量子位联合NVIDIA英伟达举行了线下交流会,跟现场近百位开发者同学共 ...

  6. 如何使用TensorRT加速深度学习推理

    文章目录 1.TensorRT 简介 2.一个简单的TensorRT示例 3.简要代码演练 3.1.批量输入 4.配置文件 5.优化您的应用 6.使用混合精度计算 7.设置最大工作区大小 8.重用Te ...

  7. 英伟达深度学习推理引擎TensorRT,现在开源了

    https://www.toutiao.com/a6703740623364555271/ 2019-06-18 13:37:53 机器之心报道 参与:李亚洲.李泽南.思 英伟达的深度学习推理引擎Te ...

  8. NVIDIA TensorRT:可编程推理加速器

    NVIDIA TensorRT:可编程推理加速器 一.概述 NVIDIA TensorRT™是一个用于高性能深度学习推理的SDK.它包括一个深度学习推理优化器和运行时间,为深度学习推理应用程序提供低延 ...

  9. 基于NVIDIA GPUs的深度学习训练新优化

    基于NVIDIA GPUs的深度学习训练新优化 New Optimizations To Accelerate Deep Learning Training on NVIDIA GPUs 不同行业采用 ...

最新文章

  1. Inplayable技术分享
  2. ISATAP隧道技术及实践
  3. 操作系统(四) | 经典进程的同步问题(生产者--消费者问题、哲学家进餐问题、读者--写者问题)
  4. MD5加密字符串并转化为base64(C#和PHP代码相同实现)
  5. yii2中的rules验证规则
  6. 前端学习(740):函数返回值注意事项
  7. C# 使用printDocument1.Print打印时不显示 正在打印对话框(里面还有一个讨厌的取消按钮)...
  8. 创建新DB和新用户DBeaver连接
  9. 使用exp导出导入,需要注意的问题。
  10. 如何开启VMware串口
  11. Shell脚本 批量修改目录下若干文件名
  12. java实现k线图自动化_Python秒绘交互式股票K线图!这就是Python的优势!
  13. symantec backup exec 2010 oracle 12,Symantec Backup Exec 2010在Windows平台下Oracle备份详细配置步骤...
  14. matlab中或者的表达,MATLAB
  15. 电子计算机eniac的储存能力有限 只能,电子计算机ENIAC的存储能力有限,只能存储简单的控制程序代码。...
  16. 2019年MongoDB中文社区 长沙大会
  17. 《Python编程 从入门到实践》
  18. 你都用 Python 来做什么 学Python能做什么
  19. CSDN副总裁孟岩:通证经济带来新的协作模式|筱静观察
  20. 组件化开发之-我们有什么必要使用组件化开发?

热门文章

  1. 2022-2028年中国数字化制造产业研究及前瞻分析报告
  2. Go 学习笔记(61)— Go 高阶函数、函数作为一等公民(函数作为输入参数、返回值、变量)的写法
  3. OpenCV 图像处理系列(6)—— 图像的几何变化
  4. SpringBoot整合MyBatis详细教程~
  5. TensorFlow用法
  6. Yolov3 的 OneFlow 实现
  7. 2021年大数据HBase(十四):HBase的原理及其相关的工作机制
  8. 2021年大数据Flink(四十四):​​​​​​扩展阅读 End-to-End Exactly-Once
  9. php连接mysql页面空白_求大神: php注册页面跳转出现空白页
  10. Python 判断当前数值的类型(比如x=10 获取x的类型)