使用DLA(深学习加速器)

https://github.com/NVIDIA/TensorRT/tree/master/samples/opensource/sampleMNIST

示例:带有 DLA 的 sampleMNIST

示例首先创建构建器:

auto builder = SampleUniquePtr<nvinfer1::IBuilder>(nvinfer1::createInferBuilder(gLogger));
if (!builder) return false;
builder->setMaxBatchSize(batchSize);
config->setMaxWorkspaceSize(16_MB);

然后,启用 GPU回退模式:

config->setFlag(BuilderFlag::kGPU_FALLBACK);
config->setFlag(BuilderFlag::kFP16); or config->setFlag(BuilderFlag::kINT8);

在 DLA 上启用执行,其中 核心 指定要执行的 DLA 核心上:

config->setDefaultDeviceType(DeviceType::kDLA);
config->setDLACore(dlaCore);

通过这些额外的更改,sampleMNIST 已准备好在 DLA 上执行。 运行示例MNIST对于 DLA Core 1,请使用以下内容命令:

 ./sample_mnist --useDLACore=1 [--int8|--fp16]

示例:在网络创建期间为层启用 DLA 模式 ]

在这个例子中,让我们创建一个简单的网络,其中包含输入、卷积和 输出。

  1. 创建构建器和网络:
IBuilder* builder = createInferBuilder(gLogger);
INetworkDefinition* network = builder->createNetworkV2(0U);
  1. 使用输入维度将输入层添加到网络。
auto data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{1, INPUT_H, INPUT_W});
  1. 添加具有隐藏层输入节点、步幅和权重的卷积层过滤和偏置。
auto conv1 = network->addConvolution(*data->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"], weightMap["conv1bias"]);
conv1->setStride(DimsHW{1, 1});
  1. 设置卷积层在 DLA 上运行:
if(canRunOnDLA(conv1))
{config->setFlag(BuilderFlag::kFP16); or config->setFlag(BuilderFlag::kINT8);
builder->setDeviceType(conv1, DeviceType::kDLA);
}
  1. 标记输出:
network->markOutput(*conv1->getOutput(0));
  1. 将 DLA 引擎设置为在以下位置执行:
engine->setDLACore(0)

TensorRT教程18:使用DLA(深学习加速器)相关推荐

  1. python教程书籍-有什么Python学习的书籍和学习资源推荐?

    看到这个题目已经有一段时间,今天晚上和两位同事吃饭时我问起这个问题,"你们学习Python过程中看过什么不错的书籍?"两位同事的回答都是"没看书,就是在网上找了一些教程简 ...

  2. STM32 基础系列教程 18 – IWDG

    前言 学习stm32 独立看门狗(IWDG)接口使用,学会用STM32内部独立看门狗(IWDG)实现程序异常时自复位功能. STM32F10xxx内置两个看门狗,提供了更高的安全性.时间的精确性和使用 ...

  3. python教程视频 网盘-Python学习路线2019版(课程大纲+视频教程+网盘资源下载)...

    2019最新Python全栈+人工智能学习路线升级版 全面涵盖前端.后端.爬虫.数据挖掘.人工智能等课程(课程大纲+视频教程+网盘资源下载)! 学习路线四大亮点: 1.人工智能三大主流框架全覆盖 2. ...

  4. AI火爆干货最全整理!五套深度学习和算法学习教程和三套Python学习视频!!!限时无套路免费领取!...

    点击蓝色"AI专栏"关注我哟 选择"星标",重磅干货,第一时间送达 这是站长第 31 期免费送丰富宝贵的干货资源与教程 本期绝对是满满的干货! 获取更多资源请关 ...

  5. pytorch官方教程中文版(二)学习PyTorch

    pytorch编程环境是1.9.1+cu10.2 建议有能力的直接看官方网站英文版! 下面所示是本次教程的主要目录: pytorch官方教程中文版: PyTorch介绍 学习PyTorch 图像和视频 ...

  6. VTA:深度学习加速器堆栈

    VTA:深度学习加速器堆栈 多功能Tensor加速器(VTA)是一个开放的,通用的,可定制的深度学习加速器,具有完整的基于TVM的编译器堆栈.设计VTA来展示主流深度学习加速器的最显着和共同的特征.T ...

  7. 深度学习加速器堆栈Deep Learning Accelerator Stack

    深度学习加速器堆栈Deep Learning Accelerator Stack 通用张量加速器(VTA)是一种开放的.通用的.可定制的深度学习加速器,具有完整的基于TVM的编译器堆栈.设计了VTA来 ...

  8. 关于编程的浅学习与深学习

    导读:Tanky Woo的程序人生在博客中发表了<关于编程的浅学习与深学习>,文章是关于编程学习的一个提议.归纳.总结. 以下是文章全部内容: 关于编程的学习,大家肯定都知道,也是大家都说 ...

  9. TensorRT是NVIDIA开发的深度学习推理工具,只支持推理,不支持训练 引

    . TensorRT是NVIDIA开发的深度学习推理工具,只支持推理,不支持训练:   目前TensorRT3已经支持Caffe.Caffe2.TensorFlow.MxNet.Pytorch等主流深 ...

最新文章

  1. BZOJ.4738.[清华集训2016]汽水(点分治 分数规划)
  2. HarmonyOS之AI能力·IM类意图识别
  3. 微信小程序云开发如何--实现简单的增删改查
  4. 使用mysql自带工具mysqlslap测试数据库性能
  5. 在SAP Data Intelligence Modeler里创建新的pipeline
  6. 一个可变布局列表,有9种布局item大小,每个item可拖拽切换位置
  7. 【MAC】Mac下配置perl的DBD::MySQL模块
  8. sed的模式匹配用法探讨
  9. HTTP1.1之后的长连接和WebSocket的长连接之间的区别
  10. javaScript中的变量作用域的闭包处理
  11. 如何将驱动程序静态编译进内核
  12. 解决时间控件input不能选择的问题
  13. react中一个音频或视频播放的时候其他音视频暂停播放
  14. java实现微信公众号群发文本消息
  15. LaTeX beamer中minipage添加脚注(footnote)
  16. Excel如何快速录入甲乙丙丁序列
  17. 一个屌丝程序猿的人生(一百二十)
  18. VUCA时代下,如何有效提高项目成功率?
  19. J_101.Java工程Properties配置文件注释中文,会自动转换为其他编码方式问题解决
  20. python接入excel_在abaqus中使用python连接excel

热门文章

  1. error界面html,error.html
  2. 特色在哪?深度剖析3D游戏画面
  3. 江苏限额申报|2022年省级企业工程技术研究中心项目申报
  4. argo workflow 部署
  5. 如何应对大流量冲击?
  6. getenv、setenv函数(获取和设置系统环境变量) 与 环境变量
  7. 概率与数理统计的发展前景
  8. 专业人士告诉你数据分析师适合女生吗?
  9. android移动端与服务端通信保持Session会话
  10. 基于Visual Question Answerin的视觉图像文本图像处理系统 设计报告+Python设计源码