ncnn是腾讯开源的手机端极致优化的高性能神经网络前向计算框架。

https://github.com/Tencent/ncnn

Vulkan是一个低开销、跨平台的3D图形与计算的API标准。

https://www.vulkan.org/

相较于基于cuda/cudnn的GPU加速方案,Vulkan具有更好的兼容性和可移植性,分发时二进制体积小等特点。

01

cuda

仅支持 Windows/Linux

仅支持 nvidia GPU

运行库体积庞大,1GB+,

且依赖特定的驱动版本

02

vulkan

支持平台 Windows/Linux

/macOS/Android/iOS

支持 GPU intel

/amd/nvidia/apple/qcom/mali

仅依赖系统显卡驱动,无额外依赖

近期,ncnn发布了20220420版本,基于Vulkan API对GPU推理做了大量优化,让神经网络在GPU推理更快。

实现 convolution implicit gemm

实现 deconvolution gemm+col2im

融合 winograd transform 与 padding

改善 winograd convolution 选择策略

拆分 innerproduct 为两步骤提高并行度

运用 shared memory 优化访存性能

运用 nvidia tensorcore Vulkan

扩展优化矩阵乘

修复最新 MoltenVK 兼容性问题

VapourSynth,SVP,FlowFrames,Video2x等项目集成了基于ncnn Vulkan实现的视频超分补帧功能,帮助内容创作者生成高画质的视频。更新到最新版ncnn后,不少用户发现这些AI应用ncnn版甚至比PyTorch cuda版更快了。

ncnn 20220420版本下载地址(linux/windows/macos/android/ios/webassembly,cpu+gpu)

https://github.com/Tencent/ncnn/releases/tag/20220420

03

ncnn 20220420版本的

其他更新

x86 avx512 优化

mips msa int8 优化

新支持 Windows ARM

新支持龙芯 LoongArch 架构

测试平台:RTX2070,Linux x86_64

测试平台:RK3399,Android aarch64

最后,欢迎点击下方链接或左下角“阅读原文”访问ncnn项目主页,看README加ncnn技术交流QQ群,与一线工程师和众多大佬直接交流。

https://github.com/Tencent/ncnn


ncnn发布20220420版本,让Vulkan神经网络推理得更快相关推荐

  1. 苹果发布最新版本系统,弥补iOS 11耗电快等问题

    距之前苹果发布最新操作系统iOS 11(北京时间9月20日)不过一周,苹果公司于今天凌晨推出iOS 11的第一个软件升级版本,数字版本号为iOS 11.0.1,支持iPhone及iPad,然而本次升级 ...

  2. 阿里巴巴开源轻量级深度神经网络推理引擎MNN

    点击我爱计算机视觉标星,更快获取CVML新技术 导读:在移动端进行深度神经网络推理,可以使用腾讯开源的ncnn,或者小米开源的Mace,还有百度家的Paddle-Mobile,他们可以帮助开发者在无需 ...

  3. 【硬核】自己动手实现轻量级神经网络推理框架

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨东林钟声@知乎(已授权) 来源丨https://zhuanla ...

  4. 自己动手实现轻量级神经网络推理框架

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨东林钟声@知乎(已授权) 来源丨https://zhuanla ...

  5. 神经网络推理_分析神经网络推理性能的新工具

    神经网络推理 Measuring the inference time of a trained deep neural model on different hardware devices is ...

  6. 基于TensorRT的神经网络推理与加速

    一. 引言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用于图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Te ...

  7. 论文学习记录20200605:隐私保护神经网络推理[USENIX2020]

    DELPHI: A Cryptographic Inference Service for Neural Networks DELPHI是一个安全的神经网络预测系统. 背景 : 许多公司为用户提供神经 ...

  8. Oracle宣称Java将每半年发布一个版本

    2019独角兽企业重金招聘Python工程师标准>>> Oracle近日宣布,他们将Java的发布频率改为每六个月一次. JCP执行委员会在八月份的会议上提到了这一说法,随后,Ora ...

  9. webstorm github怎么用_前端开发神器WebStorm发布最新版本2019.3,代码完成更加智能...

    WebStorm是一款深受广大程序员喜爱的JavaScript 开发和Web前端开发工具,完美适应各种复杂客户端开发和Node.js的服务器端开发.2019.3版本的启动速度提高了20%,对Vue.j ...

  10. Metasploit发布了版本5.0.76

    Metasploit发布了版本5.0.76 在该版本中,增加了以下模块: (1)增强了set payload命令的输入.用户在指定payload时,在payload名称前可以使用/payload.pa ...

最新文章

  1. python趣味编程表白_【暖心一笑】Python趣味编程:定时给Ta讲笑话
  2. Mysql中的utf-8竟然是假的!
  3. spring配置文件中非bean标签的原理解析
  4. UNITY2018.3 在editor下运行时new memoryprofiler显示 shader占用内存很大的问题在安卓上并没有看到...
  5. Apache中access_log日志分析
  6. P3357 最长k可重线段集问题 网络流
  7. oracle 中此处列不允许,oracle-序列 ora-02287 此处不允许序号
  8. iphone屏幕录制_iphone投屏到电脑详细教程
  9. 模拟手机浏览器_简易数据分析 03 | 浏览器中那些不为人知的使用技巧
  10. Win11应用商店怎么更新新版?应用商店更新教程
  11. 一段实现分页的存储过程
  12. WSL:vi 的使用、只读下的修改操作
  13. oracle实现累加,oracle用sum函数实现累加
  14. SQLite之C++封装库CppSQLite使用方法
  15. 前端开发实习面试题(Vue篇)
  16. 抽象工厂模式---游戏等级
  17. FFmpeg给mp4视频加上旋转90度的代码
  18. 7z001怎么解压在安卓手机上面_安卓手机用户换iPhone11怎么转移手机便签内容?...
  19. 大数据架构选型与设计
  20. (4)量子态矢与算子(算符)

热门文章

  1. 二级计算机考试什么最难,计算机二级考试难吗 考试内容是什么
  2. 将pdf转成图片时,文字没法显示
  3. Ubuntu firefox无法加载视频
  4. 密码学基础(数学理论)
  5. vim配置——MA6174
  6. 北京逛街攻略总结篇(MM必看)
  7. arm neon介绍
  8. luogu P5064 [Ynoi2014] 等这场战争结束之后
  9. 中国区边界shp文件以及STRM 90m DEM分享(百度云免费下载链接)
  10. 阿里中台搞了3年,搞凉了?网传:副总裁玄难“背锅”,辞职创业!