环境配置

在linux OpenSUSE 42.2系统下运行，安装CUDA Toolkit 10.0，pip中安装pycuda、opencv和numpy。

CUDA

直接从CUDA官网(https://developer.nvidia.com/cuda-90-download-archive)下载对应版本的.run文件，运行后根据提示进行安装。除了“显卡驱动”外所有选项都安装。

安装成功后，应可以通过命令行指令，查看cuda版本。

nvcc --version

pycuda

从pycuda官网(https://mathema.tician.de/software/pycuda/)给出的方法下载，按照帮助文档(https://wiki.tiker.net/PyCuda/Installation/Linux)逐步安装。

安装完成后，可以运行pycuda提供的简单gpu运算代码。

numpy和cv2

正常通过pip安装就可以。

sudo python -m pip install numpy
sudo python -m pip install opencv-python

代码

主要写了三个调用GPU的函数，基本上与C中调用cuda的方法一致。关于调用GPU后运算的的效果，我没有去定量计算，只能说比直接通过CPU运算快了很多。

# 这些引用，有一部分是配置pycuda的运行环境的
from __future__ import print_function
from __future__ import absolute_import
import pycuda.driver as drv
import pycuda.tools
import pycuda.autoinitimport numpy
from pycuda.compiler import SourceModule
import cv2 # 相当于直接生成一个C语言的kernel，注意输入的数据类型是unsigned char
mod = SourceModule('''
// 渐变色
__global__ void drawGardient(unsigned char *img){const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;img[3 * i + 0] = (char) 255 - 255 * (i / 800) / 800;img[3 * i + 1] = (char) 255 - 255 * (i % 800) / 800;img[3 * i + 2] = (char) 128 - 128 * (i / 800) / 800;
}
// 棋盘格
__global__ void drawChess(unsigned char *img){const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;const int flag = (i / 80) + (i / 800 / 80);if (flag % 2){img[3 * i + 0] = 255;img[3 * i + 1] = 255;img[3 * i + 2] = 255;}else {img[3 * i + 0] = 0;img[3 * i + 1] = 0;img[3 * i + 2] = 0;}
}
// 两张图片融合
__global__ void merge(unsigned char *img1, unsigned char *img2, unsigned char *img3){const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;img3[3 * i + 0] = img1[3 * i + 0] * 3 / 4 + img2[3 * i + 0] / 4;img3[3 * i + 1] = img1[3 * i + 1] * 3 / 4 + img2[3 * i + 1] / 4;img3[3 * i + 2] = img1[3 * i + 2] * 3 / 4 + img2[3 * i + 2] / 4;
}
''')
drawGardient = mod.get_function('drawGardient')
drawChess = mod.get_function('drawChess')
merge = mod.get_function('merge')if __name__ == '__main__':# 创建3张800*800像素的图片img1 = numpy.ndarray((800, 800, 3), dtype = numpy.uint8)img2 = numpy.ndarray((800, 800, 3), dtype = numpy.uint8)img3 = numpy.zeros_like(img1)# 通过cuda来调用gpu模块drawGardient(drv.Out(img1), block = (50, 20, 1), grid = (80, 8))drawChess(drv.Out(img2), block = (50, 20, 1), grid = (80, 8))# 根据自己的GPU性能选择合适的block、grid，如果超出会报错merge(drv.In(img1), drv.In(img2), drv.Out(img3), block = (50, 20, 1), grid = (80, 8))cv2.namedWindow('image')cv2.imwrite('img1.jpg', img1)cv2.imshow('image', img1)cv2.waitKey(2000)cv2.imwrite('img2.jpg', img2)cv2.imshow('image', img2)cv2.waitKey(2000)cv2.imwrite('img3.jpg', img3)cv2.imshow('image', img3)# ESC退出while True:if cv2.waitKey(100) == 27:breakcv2.destroyAllWindows()

运行结果

运行之后，会依次出现三张图片。

关于pycuda

在pycuda中输入一个m×n像素的图像（相当于一个三维数组），会被转换为(m×n×3)×1的一维数组去进行运算。

例如一个2×3×3的数组：

[[1, 2, 3], [2, 3, 4], [3, 4, 5],
[2, 3, 4], [3, 4, 5], [4, 5, 6]]

在pycuda中会被转换为18×1的数组：

[1, 2, 3, 2, 3, 4, 3, 4, 5, 2, 3, 4, 3, 4, 5, 4, 5, 6]

在进行图像处理的时候，可以通过类似的原理，找到对应的行列。当然，通过合理的分配block，也会有更简单的运算方法。

通过pycuda调用GPU相关推荐

tensorflow2.x版本无法调用gpu的一种解决方法
最近学校给了一个服务器账号用来训练神经网络使用,服务器本身配置是十路titan V,然后在上面装了tensorflow2.2,对应的python版本是3.6.2,装好之后用tf.test.is_gpu ...
python无法使用1号gpu_详解tensorflow2.x版本无法调用gpu的一种解决方法
最近学校给了一个服务器账号用来训练神经网络使用,服务器本身配置是十路titan V,然后在上面装了tensorflow2.2,对应的python版本是3.6.2,装好之后用tf.test.is_gpu ...
matlab中如何调用gpu进行并行计算_极致安卓-Termux/Aid learning开启WebGL手机GPU并行计算...
在我的之前的测评中,我利用Termux和Aid Learning测试过基于C/C++的openmp并行程序,基于Java的并行程序,还有基于MPI以及基于Java的分布式集群并行.但是很遗憾,一直无法 ...
docker用gpu的参数_初探Docker调用GPU
前一阵子写了一篇docker的学习笔记[1],但是当时没有gpu,所以没法做显卡调用相关的内容.最近机房的电脑启动了,有了实验环境,打算把docker调用gpu相关的内容测试一下.实验环境依然为Ubu ...
tensorflow不能调用GPU
问题:在环境了安装了tensorflow-gpu,但是,在程序运行时,代码并没有调用GPU 原因:环境中存在CPU版tensorflow,程序运行时可能默认使用CPU版tensorflow. 解决方法 ...
cuda的安装，及pytorch调用GPU步骤
前言: 深度学习涉及很多向量或多矩阵运算,如矩阵相乘.矩阵相加.矩阵-向量乘法等.深层模型的算法,如BP,Auto-Encoder,CNN等,都可以写成矩阵运算的形式,无须写成循环运算.然而,在单核C ...
K8S调用GPU资源配置指南
06-09 K8S调用GPU资源配置指南时间版本号修改描述修改人 2022年6月9日15:33:12 V0.1 新建K8S调用GPU资源配置指南, 编写了Nvidia驱动安装过程 2022年6 ...
windows10子系统wsl下使用tensorflow2.5.0调用gpu进行训练
在windows中下载wsl 首先:点击控制面板–>启用或关闭windows功能 ==> 勾选图中的两个选项:适用于linux的windows子系统以及虚拟机平台在微软商店下载wsl 系 ...
yolov5踩过的初坑（关于detect代码可以调用gpu而训练代码无法调用gpu的问题）
第一次写博客,如有不妥之处,还请谅解. 初遇这个问题是在笔记本上测试训练代码遇到的,起初以为是笔记本配置太低(windows10 64位显卡NVIDIA GeForce MX350, 2048.0M ...
pytorch在调用GPU的时候出现cuda runtime error (2) : out of memory at ..\aten\src\THC\THCGeneral.cpp:50
这是因为GPU中的显存占满了,在任务管理器中关闭程序即可 @[TOC](pytorch在调用GPU的时候出现cuda runtime error (2) : out of memory at -\at ...

通过pycuda调用GPU