原文链接:https://developer.nvidia.com/rdp/cudnn-download

(1)为所有层增加了FP16支持(仅用于存储,所有中间计算仍然使用FP32;

(2)为所有层增加3D支持;

(3)增加新的2D卷积实现:前向和后向计算利用FFT加速。具体参考文档

CUDNN_CONVOLUTION_FWD_ALGO_FFT,

CUDNN_CONVOLUTION_BWD_FILTER_ALGO_FFT,

CUDNN_CONVOLUTION_BWD_DATA_ALGO_FFT。

2DFFT卷积是确定的。

(4)后向Data和Filter 2D卷积目前支持新的确定算法,相应地为CUDNN_CONVOLUTION_BWD_DATA_ALGO1和CUDNN_CONVOLUTION_BWD_FILTER_ALGO1。这些算法在一些场景下优于非确定算法。

类似于前向,用户可以查询最快的算法或根据需要选一个特定算法。

(5)增加了通道间局部响应归一化层(LRN CrossChannel);

(6)增加了可分离的归一化层。该层可以用于实现通道内 2D或3D LRN和LCN;

(7)增加了对数软最大化层(Log Softmax);

(8)增加三个新函数

cudnnFindConvolutionForwardAlgorithm,

cudnnFindConvolutionBackwardFilterAlgorithm,

cudnnFindConvolutionBackwardDataAlgorithm。

它们尝试每个可用的卷积算法,按速度和内存需求量排序。

(9)目前下采样层(pooling)支持负补边操作(negative padding);

Maxwell性能提升

(10)前向卷积算法CUDNN_CONVOLUTION_FWD_ALGO1和data后向卷积算法CUDNN_CONVOLUTION_BWD_DATA_ALGO1在Maxwell架构下的性能大大提升;

后向API兼容性

(11)为了保持后向兼容cuDNN v2.0,更新了几个带后缀_v3的API函数:

cudnnSetConvolutionDescriptor_v3

cudnnGetConvolutionDescriptor_v3

cudnnConvolutionBackwardFilter_v3

cudnnConvolutionBackwardData_v3

原先的函数已经过期。

cuBLAS依赖

(12)新的FFT卷积算法使用了一些cuBLAS函数。在cuDNN应用程序中使用cuDNN动态库无需显式链接cuBLAS库,而使用cuDNN静态库则需要显式链接cuBLAS库。

已知的问题

(13)在Maxwell架构下,当选择CUDNN_CONVOLUTION_BWD_DATA_ALGO1算法,而且补边数目大于滤波器尺寸时函数cudnnConvolutionBackwardData_v3可能给出错误结果。

CUDNN v3特性相关推荐

  1. 安装Cloudreve 新版V3(go版本)

    Cloudreve 新版V3特性: ☁️ 支持本机.从机.七牛.阿里云 OSS.腾讯云 COS.又拍云.OneDrive (包括世纪互联版) 作为存储端

  2. tensorflow 版本列表_tensorflow各个版本的CUDA以及Cudnn版本对应关系

    概述,需要注意以下几个问题: (1)NVIDIA的显卡驱动程序和CUDA完全是两个不同的概念哦!CUDA是NVIDIA推出的用于自家GPU的并行计算框架,也就是说CUDA只能在NVIDIA的GPU上运 ...

  3. 系统学习深度学习(七)--主流深度学习开源框架对比

    转自:http://blog.csdn.net/u010167269/article/details/51810613,本文做了相关修改. 参考论文:<Comparative Study of ...

  4. [论文翻译]V-Net:Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation

    论文下载: 地址 V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation V-Net: ...

  5. 制作自己的segnet数据集_语义分割【论文解读】经典网络SegNet 值得仔细反复阅读...

    摘要: 提出了一种新颖而实用的深度全卷积神经网络结构用于语义像素分割称为SegNet.这个核心的可训练分割引擎包括一个编码器网络,一个相应的解码器网络,以及一个像素级的分类层.编码器网络的架构与VGG ...

  6. 深度学习笔记之使用Faster-Rcnn进行目标检测 (实践篇)

    实验 我使用的代码是Python版本的Faster Rcnn,官方也有Matlab版本的,链接如下: py-faster-rcnn(python) faster-rcnn(matlab) 环境配置 按 ...

  7. 使用Faster-Rcnn进行目标检测(实践篇)

    原理 上一篇文章,已经说过了,大家可以参考一下,Faster-Rcnn进行目标检测(原理篇) 实验 我使用的代码是python版本的Faster Rcnn,官方也有Matlab版本的,链接如下: py ...

  8. windows7+visual studio 2013+CUDA7.5 编译caffe+配置matcaffe+配置pycaffe

    经过朋友指导,终于成功在windows7上成功编译了caffe,这里将编译过程记录 安装文件准备 1 visual studio 2013安装包下载 2 CUDA75 optional 3 windo ...

  9. gpu填充速率 计算_【经典回顾】Nvidia GPU 上的 CNN 计算速度变迁

    笔者从 2012 年初开始接触 GPU 编程,2014 年上半年开始接触 Caffe,可以毫不谦虚地说是"一天天看着 Nvidia GPU 和 Caffe 长大的". Nvidia ...

最新文章

  1. 我们应该怎么使用网络中赋予我们的权限
  2. 不契合市场,Bitcoin SV愿景未必是给矿工的一个好选择
  3. 实例理解q—learning-Python强化学习
  4. java有画图的库吗_Java画图
  5. 程序员,别了校园入了江湖
  6. Rust 越来越香了!AWS 雇佣 Rust 编译器团队负责人 Felix Klock
  7. plc 上位机编译算法_基于西门子PLC的Socket通信深度剖析
  8. 企业应用开发(1)--软件学院OJ系统需求分析与原型图设计
  9. 个人博客搭建教程——基于WordPress
  10. 安徽省计算机二级水平考试试卷,安徽省计算机二级考试理论试题(附答案)
  11. 130 个相见恨晚的超实用网站
  12. 大一下c语言笔记本电脑,适合大一新生的笔记本电脑排行榜2020_大一新生适合什么笔记本电脑...
  13. (16)万能查询还是万恶查询?
  14. 最直白的求婚:老子就想和你上床能咋地?
  15. 关于eclipse中没有js代码提示的解决
  16. 联想MIIX720二合一笔记本键盘维修(带键盘灯款)
  17. 智慧工地到底有多少“智慧”?见识到了!
  18. ubuntu耳机噪音,电流声
  19. VC获取系统进程列表、查找进程、关闭进程
  20. 交并比(IOU)的计算方法

热门文章

  1. 特斯拉全自动驾驶硬件发布!马斯克明年推RoboTaxi:傻瓜才用激光雷达
  2. 吴恩达发布了大型X光数据集,斯坦福AI诊断部分超越人类 | AAAI 2019
  3. 百度英伟达联手推混合精度训练,同样性能只需一半内存 | 附论文
  4. spring +springmvc+mybatis组合springmvc.xml文件配置
  5. shell脚本中特定符合变量的含义
  6. aspnetpager分页UI调用存储过程函数
  7. POJ 2553 The Bottom of a Graph
  8. 敏捷 - #2 原则:欢迎更改要求 ( #2 Agile - Principle)
  9. 006_理解inode
  10. 关于js的冒泡--新手踩坑案例