CUDNN v3特性

原文链接：https://developer.nvidia.com/rdp/cudnn-download

（1）为所有层增加了FP16支持（仅用于存储，所有中间计算仍然使用FP32；

（2）为所有层增加3D支持；

（3）增加新的2D卷积实现：前向和后向计算利用FFT加速。具体参考文档

CUDNN_CONVOLUTION_FWD_ALGO_FFT，

CUDNN_CONVOLUTION_BWD_FILTER_ALGO_FFT，

CUDNN_CONVOLUTION_BWD_DATA_ALGO_FFT。

2DFFT卷积是确定的。

（4）后向Data和Filter 2D卷积目前支持新的确定算法，相应地为CUDNN_CONVOLUTION_BWD_DATA_ALGO1和CUDNN_CONVOLUTION_BWD_FILTER_ALGO1。这些算法在一些场景下优于非确定算法。

类似于前向，用户可以查询最快的算法或根据需要选一个特定算法。

（5）增加了通道间局部响应归一化层（LRN CrossChannel）；

（6）增加了可分离的归一化层。该层可以用于实现通道内 2D或3D LRN和LCN；

（7）增加了对数软最大化层(Log Softmax）；

（8）增加三个新函数

cudnnFindConvolutionForwardAlgorithm,

cudnnFindConvolutionBackwardFilterAlgorithm,

cudnnFindConvolutionBackwardDataAlgorithm。

它们尝试每个可用的卷积算法，按速度和内存需求量排序。

（9）目前下采样层（pooling）支持负补边操作(negative padding）；

Maxwell性能提升

（10）前向卷积算法CUDNN_CONVOLUTION_FWD_ALGO1和data后向卷积算法CUDNN_CONVOLUTION_BWD_DATA_ALGO1在Maxwell架构下的性能大大提升；

后向API兼容性

（11）为了保持后向兼容cuDNN v2.0，更新了几个带后缀_v3的API函数：

cudnnSetConvolutionDescriptor_v3

cudnnGetConvolutionDescriptor_v3

cudnnConvolutionBackwardFilter_v3

cudnnConvolutionBackwardData_v3

原先的函数已经过期。

cuBLAS依赖

（12）新的FFT卷积算法使用了一些cuBLAS函数。在cuDNN应用程序中使用cuDNN动态库无需显式链接cuBLAS库，而使用cuDNN静态库则需要显式链接cuBLAS库。

已知的问题

（13）在Maxwell架构下，当选择CUDNN_CONVOLUTION_BWD_DATA_ALGO1算法，而且补边数目大于滤波器尺寸时函数cudnnConvolutionBackwardData_v3可能给出错误结果。

CUDNN v3特性相关推荐

安装Cloudreve 新版V3(go版本)
Cloudreve 新版V3特性: ☁️ 支持本机.从机.七牛.阿里云 OSS.腾讯云 COS.又拍云.OneDrive (包括世纪互联版) 作为存储端
tensorflow 版本列表_tensorflow各个版本的CUDA以及Cudnn版本对应关系
概述,需要注意以下几个问题: (1)NVIDIA的显卡驱动程序和CUDA完全是两个不同的概念哦!CUDA是NVIDIA推出的用于自家GPU的并行计算框架,也就是说CUDA只能在NVIDIA的GPU上运 ...
系统学习深度学习（七）--主流深度学习开源框架对比
转自:http://blog.csdn.net/u010167269/article/details/51810613,本文做了相关修改. 参考论文:<Comparative Study of ...
[论文翻译]V-Net:Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation
论文下载: 地址 V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation V-Net: ...
制作自己的segnet数据集_语义分割【论文解读】经典网络SegNet 值得仔细反复阅读...
摘要: 提出了一种新颖而实用的深度全卷积神经网络结构用于语义像素分割称为SegNet.这个核心的可训练分割引擎包括一个编码器网络,一个相应的解码器网络,以及一个像素级的分类层.编码器网络的架构与VGG ...
深度学习笔记之使用Faster-Rcnn进行目标检测（实践篇）
实验我使用的代码是Python版本的Faster Rcnn,官方也有Matlab版本的,链接如下: py-faster-rcnn(python) faster-rcnn(matlab) 环境配置按 ...
使用Faster-Rcnn进行目标检测(实践篇)
原理上一篇文章,已经说过了,大家可以参考一下,Faster-Rcnn进行目标检测(原理篇) 实验我使用的代码是python版本的Faster Rcnn,官方也有Matlab版本的,链接如下: py ...
windows7+visual studio 2013+CUDA7.5 编译caffe+配置matcaffe+配置pycaffe
经过朋友指导,终于成功在windows7上成功编译了caffe,这里将编译过程记录安装文件准备 1 visual studio 2013安装包下载 2 CUDA75 optional 3 windo ...
gpu填充速率计算_【经典回顾】Nvidia GPU 上的 CNN 计算速度变迁
笔者从 2012 年初开始接触 GPU 编程,2014 年上半年开始接触 Caffe,可以毫不谦虚地说是"一天天看着 Nvidia GPU 和 Caffe 长大的". Nvidia ...

CUDNN v3特性

CUDNN v3特性相关推荐

最新文章

热门文章