通过pycuda调用GPU

  • 环境配置
    • CUDA
    • pycuda
    • numpy和cv2
  • 代码
    • 运行结果
    • 关于pycuda

环境配置

在linux OpenSUSE 42.2系统下运行,安装CUDA Toolkit 10.0,pip中安装pycuda、opencv和numpy。

CUDA

直接从CUDA官网(https://developer.nvidia.com/cuda-90-download-archive)下载对应版本的.run文件,运行后根据提示进行安装。除了“显卡驱动”外所有选项都安装。

安装成功后,应可以通过命令行指令,查看cuda版本。

nvcc --version

pycuda

从pycuda官网(https://mathema.tician.de/software/pycuda/)给出的方法下载,按照帮助文档(https://wiki.tiker.net/PyCuda/Installation/Linux)逐步安装。

安装完成后,可以运行pycuda提供的简单gpu运算代码。

numpy和cv2

正常通过pip安装就可以。

sudo python -m pip install numpy
sudo python -m pip install opencv-python

代码

主要写了三个调用GPU的函数,基本上与C中调用cuda的方法一致。关于调用GPU后运算的的效果,我没有去定量计算,只能说比直接通过CPU运算快了很多。

# 这些引用,有一部分是配置pycuda的运行环境的
from __future__ import print_function
from __future__ import absolute_import
import pycuda.driver as drv
import pycuda.tools
import pycuda.autoinitimport numpy
from pycuda.compiler import SourceModule
import cv2 # 相当于直接生成一个C语言的kernel,注意输入的数据类型是unsigned char
mod = SourceModule('''
// 渐变色
__global__ void drawGardient(unsigned char *img){const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;img[3 * i + 0] = (char) 255 - 255 * (i / 800) / 800;img[3 * i + 1] = (char) 255 - 255 * (i % 800) / 800;img[3 * i + 2] = (char) 128 - 128 * (i / 800) / 800;
}
// 棋盘格
__global__ void drawChess(unsigned char *img){const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;const int flag = (i / 80) + (i / 800 / 80);if (flag % 2){img[3 * i + 0] = 255;img[3 * i + 1] = 255;img[3 * i + 2] = 255;}else {img[3 * i + 0] = 0;img[3 * i + 1] = 0;img[3 * i + 2] = 0;}
}
// 两张图片融合
__global__ void merge(unsigned char *img1, unsigned char *img2, unsigned char *img3){const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;img3[3 * i + 0] = img1[3 * i + 0] * 3 / 4 + img2[3 * i + 0] / 4;img3[3 * i + 1] = img1[3 * i + 1] * 3 / 4 + img2[3 * i + 1] / 4;img3[3 * i + 2] = img1[3 * i + 2] * 3 / 4 + img2[3 * i + 2] / 4;
}
''')
drawGardient = mod.get_function('drawGardient')
drawChess = mod.get_function('drawChess')
merge = mod.get_function('merge')if __name__ == '__main__':# 创建3张800*800像素的图片img1 = numpy.ndarray((800, 800, 3), dtype = numpy.uint8)img2 = numpy.ndarray((800, 800, 3), dtype = numpy.uint8)img3 = numpy.zeros_like(img1)# 通过cuda来调用gpu模块drawGardient(drv.Out(img1), block = (50, 20, 1), grid = (80, 8))drawChess(drv.Out(img2), block = (50, 20, 1), grid = (80, 8))# 根据自己的GPU性能选择合适的block、grid,如果超出会报错merge(drv.In(img1), drv.In(img2), drv.Out(img3), block = (50, 20, 1), grid = (80, 8))cv2.namedWindow('image')cv2.imwrite('img1.jpg', img1)cv2.imshow('image', img1)cv2.waitKey(2000)cv2.imwrite('img2.jpg', img2)cv2.imshow('image', img2)cv2.waitKey(2000)cv2.imwrite('img3.jpg', img3)cv2.imshow('image', img3)# ESC退出while True:if cv2.waitKey(100) == 27:breakcv2.destroyAllWindows()

运行结果

运行之后,会依次出现三张图片。


关于pycuda

在pycuda中输入一个m×n像素的图像(相当于一个三维数组),会被转换为(m×n×3)×1的一维数组去进行运算。

例如一个2×3×3的数组:

[[1, 2, 3], [2, 3, 4], [3, 4, 5],
[2, 3, 4], [3, 4, 5], [4, 5, 6]]

在pycuda中会被转换为18×1的数组:

[1, 2, 3, 2, 3, 4, 3, 4, 5, 2, 3, 4, 3, 4, 5, 4, 5, 6]

在进行图像处理的时候,可以通过类似的原理,找到对应的行列。当然,通过合理的分配block,也会有更简单的运算方法。

通过pycuda调用GPU相关推荐

  1. tensorflow2.x版本无法调用gpu的一种解决方法

    最近学校给了一个服务器账号用来训练神经网络使用,服务器本身配置是十路titan V,然后在上面装了tensorflow2.2,对应的python版本是3.6.2,装好之后用tf.test.is_gpu ...

  2. python无法使用1号gpu_详解tensorflow2.x版本无法调用gpu的一种解决方法

    最近学校给了一个服务器账号用来训练神经网络使用,服务器本身配置是十路titan V,然后在上面装了tensorflow2.2,对应的python版本是3.6.2,装好之后用tf.test.is_gpu ...

  3. matlab中如何调用gpu进行并行计算_极致安卓-Termux/Aid learning开启WebGL手机GPU并行计算...

    在我的之前的测评中,我利用Termux和Aid Learning测试过基于C/C++的openmp并行程序,基于Java的并行程序,还有基于MPI以及基于Java的分布式集群并行.但是很遗憾,一直无法 ...

  4. docker用gpu的参数_初探Docker调用GPU

    前一阵子写了一篇docker的学习笔记[1],但是当时没有gpu,所以没法做显卡调用相关的内容.最近机房的电脑启动了,有了实验环境,打算把docker调用gpu相关的内容测试一下.实验环境依然为Ubu ...

  5. tensorflow不能调用GPU

    问题:在环境了安装了tensorflow-gpu,但是,在程序运行时,代码并没有调用GPU 原因:环境中存在CPU版tensorflow,程序运行时可能默认使用CPU版tensorflow. 解决方法 ...

  6. cuda的安装,及pytorch调用GPU步骤

    前言: 深度学习涉及很多向量或多矩阵运算,如矩阵相乘.矩阵相加.矩阵-向量乘法等.深层模型的算法,如BP,Auto-Encoder,CNN等,都可以写成矩阵运算的形式,无须写成循环运算.然而,在单核C ...

  7. K8S调用GPU资源配置指南

    06-09 K8S调用GPU资源配置指南 时间 版本号 修改描述 修改人 2022年6月9日15:33:12 V0.1 新建K8S调用GPU资源配置指南, 编写了Nvidia驱动安装过程 2022年6 ...

  8. windows10子系统wsl下使用tensorflow2.5.0调用gpu进行训练

    在windows中下载wsl 首先:点击控制面板–>启用或关闭windows功能 ==> 勾选图中的两个选项:适用于linux的windows子系统以及虚拟机平台 在微软商店下载wsl 系 ...

  9. yolov5踩过的初坑(关于detect代码可以调用gpu而训练代码无法调用gpu的问题)

    第一次写博客,如有不妥之处,还请谅解. 初遇这个问题是在笔记本上测试训练代码遇到的,起初以为是笔记本配置太低(windows10 64位 显卡NVIDIA GeForce MX350, 2048.0M ...

  10. pytorch在调用GPU的时候出现cuda runtime error (2) : out of memory at ..\aten\src\THC\THCGeneral.cpp:50

    这是因为GPU中的显存占满了,在任务管理器中关闭程序即可 @[TOC](pytorch在调用GPU的时候出现cuda runtime error (2) : out of memory at -\at ...

最新文章

  1. 下半部机制之工作队列
  2. JS每日一题:Vue中的diff算法?
  3. linux学习项目,[ Linux运维学习 ] 路径及实战项目合集
  4. 树状数组基础原理与模板
  5. 史上速度最快!DNS 公共服务 1.1.1.1 正式发布
  6. Unity 2D 跑酷道路动起来
  7. 系统学习NLP(十二)--文本表示综述
  8. 华为诺亚方舟 | 构建1亿组图文对中文多模态数据集
  9. 面试遇到不会回答的问题,如何力挽狂澜 ?
  10. APK解包修改后,重新打包
  11. 转换pfb/pfm字体格式为otf
  12. 天津大学计算机系分数线,2019天津大学录取分数线及历年专业分数线统计表【文科 理科】...
  13. NLP 自古以来的各预训练模型 (PTMs) 和预训练任务小结
  14. 自制COREXY结构的3D打印机
  15. scatter python cmap_Matplotlib.pyplot.scatter()中颜色映射cmap的可能取值
  16. IN和Like的使用
  17. Dogs vs. Cats
  18. python环境问题(环境切换)
  19. Linux驱动之mipi接口的LCD设备添加过程
  20. 可编程的SQL是什么样的?

热门文章

  1. wpf 监听退出事件_如何监听WPF的WebBrowser控件弹出新窗口的事件
  2. 人工智能计算机战胜围棋冠军
  3. walking与Matlab入门教程-连接到walking机器人
  4. 任正非:一个人对自己都不狠,哪来的战斗力?
  5. 关于王羲之的《兰亭集序》
  6. 像CFO一样思考(1)- 给私域运营算个帐
  7. HTML个人简历代码模板(静态页面)
  8. SkipList(跳跃表)详解
  9. 淡泊以明志,宁静而致远
  10. struts标签+jstl标签之国际化实例