CUDA

随着显卡的发展，GPU越来越强大，而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了，因此NVidia推出CUDA，让显卡可以用于图像计算以外的目的。

host 指代CPU及其内存，
device指代GPU及其内存。

CUDA程序中既包含host程序，又包含device程序，它们分别在CPU和GPU上运行。同时，host与device之间可以进行通信，它们之间可以进行数据拷贝。

GPU并行化的工作流程：

CPU发送一种称为kernel的函数到GPU。
GPU同时运行该函数的多个版本，称为threads。thread可以组合成block，一个kernel里的所有thread称为一个grid。

threads ：thread的不同版本
block ：多个thread组成
grid：一个kernel里的所有thread

修饰符

__host__ 修饰符
__global__ 修饰符
__device__ 修饰符

`global`

__global__ 是CUDA C/C++的函数修饰符，表示该函数为一个kernel函数，且

该函数会在GPU(device)上执行。
必须返回void。
由主机(host)代码调用。
只能被CPU调用。

在调用kernel函数时，函数名后的<<<b, t>>>

b代表block的数目。
t代表每个block中thread的数目。

//kernel函数需要运行在4个block上，每个block有2个thread
__global__ void myKernel() {// ...
}void main()
{int block,thread;block=4;thread=2;myKernel<<<block,thread>>>();
}

`host`

运行在CPU上，每次调用运行一次。
只能被CPU调用。
所有未显式标明函数前置修饰符的函数均为host函数。

`device`

运行在GPU上，每次调用运行一次。
只能被GPU调用。

#include <stdio.h>__device__ int dev1() {}
__device__ int dev2() {}
__global__ void run10Times() {//your code heredev1();dev2();//end of your code
}int main() {run10Times<<<2, 5>>>();printf("Hello, World!\n");return 0;
}

内存分配

cudaMalloc 分配设备上的内存
cudaMemcpy 将不同内存段的数据进行拷贝
cudaFree 释放先前在设备上申请的内存空间

__host__ cudaError_t cudaMalloc (void **devPtr, size_t size)/*该函数主要用来分配设备上的内存（即显存中的内存）。该函数被声明为了__host__，即表示被host所调用，即在cpu中执行的代码所调用。返回值：为cudaError_t类型，实质为cudaError的枚举类型，其中定义了一系列的错误代码。如果函数调用成功，则返回cudaSuccess。第一个参数，void ** 类型，devPtr：用于接受该函数所分配的内存地址。第二个参数，size_t类型，size：指定分配内存的大小，单位为字节。*/ __host__ cudaError_t cudaMemcpy (void *dst, const void *src, size_t count, enum cudaMemcpyKind kind)/*该函数主要用于将不同内存段的数据进行拷贝，内存可用是设备内存，也可用是主机内存第一个参数，void*类型，dst：为目的内存地址第二个参数，const void *类型，src：源内存地址第三个参数，size_t类型，count：将要进行拷贝的字节大小第四个参数，enum cudaMemcpyKind类型，kind：拷贝的类型，决定拷贝的方向。cudaMemcpyKind类型如下：cudaMemcpyHostToHost, cudaMemcpyHostToDevice, cudaMemcpyDeviceToHost, cudaMemcpyDeviceToDevice, cudaMemcpyDefault。*/ __host__ cudaError_t cudaFree (void* devPtr)/*该函数用来释放先前在设备上申请的内存空间（通过cudaMalloc、cudaMallocPitch等函数），注意，不能释放通过标准库函数malloc进行申请的内存。返回值：为错误代码的类型值。第一个参数，void**类型，devPtr：指向需要释放的设备内存地址。*/

cudaMemcpyKind类型如下：
cudaMemcpyHostToHost,
cudaMemcpyHostToDevice,
cudaMemcpyDeviceToHost,
cudaMemcpyDeviceToDevice,
cudaMemcpyDefault。

#include <stdio.h>
#include <stdlib.h>
#include <cuda.h>
#include <cuda_runtime.h> __global__ void colonel(int *a_d){//your code here*a_d = 2;//end of your code
}int main(){int a = 0, *a_d;cudaMalloc((void**) &a_d, sizeof(int));cudaMemcpy(a_d, &a, sizeof(int), cudaMemcpyHostToDevice);colonel<<<1, 1>>>(a_d); cudaMemcpy(&a, a_d, sizeof(int), cudaMemcpyDeviceToHost);printf("a = %d\n", a);cudaFree(a_d);
}

CUDA GPU编程相关推荐

GPU 编程入门到精通（一）之 CUDA 环境安装
GPU 编程入门到精通(一)之 CUDA 环境安装标签: cudagpunvidia GPU 编程入门到精通(一)之 CUDA 环境安装标签: cudagpunvidia 2014-04-11 2 ...
CUDA 编程上手指南：CUDA C 编程及 GPU 基本知识
作者丨科技猛兽编辑丨极市平台本文原创首发于极市平台,转载请获得授权并标明出处. 推荐大家关注极市平台公众号,每天都会更新最新的计算机视觉论文解读.综述盘点.调参攻略.面试经验等干货~ 目录 1 C ...
c cuda 指定gpu_《CUDA C编程权威指南》——1.3　用GPU输出Hello World-阿里云开发者社区...
本节书摘来自华章计算机<CUDA C编程权威指南>一书中的第1章,第1.3节,作者 [美] 马克斯·格罗斯曼(Max Grossman),译颜成钢殷建李亮,更多章节内容可以访问云栖社 ...
GPU加速（一）CUDA C编程及GPU基本知识
前言笔记来自深蓝学院<CUDA入门与深度神经网络加速> 补充:线程与线程线程是进程中执行运算(CPU调度)的最小单位.同一类线程共享代码和数据空间:进程是资源分配的最小单位.每个进程 ...
CUDA下的GPU编程入门--第一个CUDA程序
CUDA是NVIDIA公司开发的一个用于GPU编程的开源框架,用于将GPU用于更广泛的数学计算,充当cpu的功能,所以只能在nvidia的GPU下实现,如果你的GPU不是nvidia的,赶紧去换一个吧 ...
GPU编程自学2 —— CUDA环境配置
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题.这里主要记录自己的GPU自学历程. 目录 <GPU编程自学1 -- 引言> <GPU编程自学2 -- CUD ...
CUDA (一)：CUDA C 编程及 GPU 基本知识
目录 1 CPU 和 GPU 的基础知识 2 CUDA 编程的重要概念 3 并行计算向量相加 4 实践 4.1 向量相加 CUDA 代码 4.2 实践向量相加 5 给大家的一点参考资料 1 CPU 和 ...
推荐书籍：CUDA并行程序设计：GPU编程指南
过去的五年中,计算领域目睹了英伟达(NVIDIA)公司带来的变革.随后的几年,英伟达公司异军突起,逐渐成长为最知名的游戏硬件制造商之一.计算统一设备架构(Compute Unified Device ...
NVIDIA GPU编程系列课程（CUDA编程）
NVIDIA网站有一部分GPU编程系列的课程,具体的课程地址为: https://www.nvidia.cn/developer/online-training/community-training/ ...

CUDA GPU编程

文章目录