[原]CUDA中grid、block、thread、warp与SM、SP的关系

2015-3-27阅读209 评论0

首先概括一下这几个概念。其中SM(Streaming Multiprocessor)SP(streaming Processor)是硬件层次的,其中一个SM可以包含多个SP。thread是一个线程,多个thread组成一个线程块block,多个block又组成一个线程网格grid。

现在就说一下一个kenerl函数是怎么执行的。一个kernel程式会有一个grid,grid底下又有数个block,每个block是一个thread群组。在同一个block中thread可以通过共享内存(shared memory)来通信,同步。而不同block之间的thread是无法通信的。

CUDA的设备在实际执行过程中,会以block为单位。把一个个block分配给SM进行运算;而block中的thread又会以warp(线程束)为单位,对thread进行分组计算。目前CUDA的warp大小都是32,也就是说32个thread会被组成一个warp来一起执行。同一个warp中的thread执行的指令是相同的,只是处理的数据不同。

基本上warp 分组的动作是由SM 自动进行的,会以连续的方式来做分组。比如说如果有一个block 里有128 个thread 的话,就会被分成四组warp,第0-31 个thread 会是warp 1、32-63 是warp 2、64-95是warp 3、96-127 是warp 4。而如果block 里面的thread 数量不是32 的倍数,那他会把剩下的thread独立成一个warp;比如说thread 数目是66 的话,就会有三个warp:0-31、32-63、64-65 。由于最后一个warp 里只剩下两个thread,所以其实在计算时,就相当于浪费了30 个thread 的计算能力;这点是在设定block 中thread 数量一定要注意的事!

一个SM 一次只会执行一个block 里的一个warp,但是SM 不见得会一次就把这个warp 的所有指令都执行完;当遇到正在执行的warp 需要等待的时候(例如存取global memory 就会要等好一段时间),就切换到别的warp来继续做运算,借此避免为了等待而浪费时间。所以理论上效率最好的状况,就是在SM 中有够多的warp 可以切换,让在执行的时候,不会有「所有warp 都要等待」的情形发生;因为当所有的warp 都要等待时,就会变成SM 无事可做的状况了。

实际上,warp 也是CUDA 中,每一个SM 执行的最小单位;如果GPU 有16 组SM 的话,也就代表他真正在执行的thread 数目会是32*16 个。不过由于CUDA 是要透过warp 的切换来隐藏thread 的延迟、等待,来达到大量平行化的目的,所以会用所谓的active thread 这个名词来代表一个SM 里同时可以处理的thread 数目。而在block 的方面,一个SM 可以同时处理多个thread block,当其中有block 的所有thread 都处理完后,他就会再去找其他还没处理的block 来处理。假设有16 个SM、64 个block、每个SM 可以同时处理三个block 的话,那一开始执行时,device 就会同时处理48 个block;而剩下的16 个block 则会等SM 有处理完block 后,再进到SM 中处理,直到所有block 都处理结束

[原]CUDA中grid、block、thread、warp与SM、SP的关系相关推荐

  1. CUDA中grid、block、thread、warp与SM、SP的关系

    首先概括一下这几个概念.其中SM(Streaming Multiprocessor)和SP(streaming Processor)是硬件层次的,其中一个SM可以包含多个SP.thread是一个线程, ...

  2. CUDA里面GRID, BLOCK 边界检测

    dim3 block(BLOCK_X, BLOCK_Y); dim3 grid((roi.width + block.x - 1) / block.x, (roi.height + block.y - ...

  3. GPU软件抽象与硬件映射的理解(Grid、Block、Warp、Thread与SM、SP)

    GPU软件抽象与硬件映射的理解 1 从程序到软件抽象: 组成关系: GPU上运行函数kernel对应一个Grid,每个Grid内有多个Block,每个Block由多个Thread组成. 运行方式: B ...

  4. Cuda 程序设计中 Grid 和 Block 维度设置的注意事项

    1. Cuda 线程的 Grid 架构 Cuda 线程分为 Grid 和 Block 两个级别,Grid.Block.Thread 的关系如下图. 一个核函数目前只包括一个 Grid,也就是图中的 G ...

  5. CUDA学习第三天:Kernel+grid+block关系

    1. 理一理前两天学到的概念之间的关系 CUDA && GPU CUDA: NIVID的CPUs上的一个通用并行计算平台和编程模型: GPU: CPU+GPU的异构计算架构,CPU所在 ...

  6. Cuda中Global memory中coalescing例程解释

    Global memory是cuda中最常见的存储类型,又叫做Device memory,位于Host主机区域上,它的生命周期是在整个Grid里面,大约具有500个cycle latency.在cud ...

  7. CUDA中Occupancy相关知识

    文章目录 occupancy初步理解 occupancy具体分析 occupany的推导流程 Occupancy实际运用 occupancy 有啥用 前言 本篇文章只适合稍微有一些cuda基础的朋友阅 ...

  8. CUDA中SM对线程块的调度

    sm流处理器簇对blocks的调度策略 在cuda中,GPU中的SM(比如GTX650有两个SM处理器)被CPU调度器把线程块逐个分配到SM上,每个SM同时处理这个被分配的线程块,但是每次每个时刻只能 ...

  9. CUDA中并行规约(Parallel Reduction)的优化

    Parallel Reduction是NVIDIA-CUDA自带的例子,也几乎是所有CUDA学习者的的必看算法.在这个算法的优化中,Mark Harris为我们实现了7种不同的优化版本,将Bandwi ...

最新文章

  1. C#制作图片压缩工具
  2. 富人是如何发财的——思考致富的方法
  3. 第5课 混合编程和芯片手册阅读
  4. Oracle 11g数据库基础教程(第2版)-课后习题-第六章
  5. 不要经常让别人抄袭你的报告,否则他们会学会Word排版的艺术
  6. SQLServer 2008 r2 安装图解
  7. 360服务器被劫持怎么修复,360浏览器网络劫持导致主页被改怎么办?360浏览器网络劫持导致主页被改的解决办法...
  8. 2018年11月黑马java
  9. 发光二极管之二——正负极如何判断
  10. 978_使用emacs lisp安装emacs插件
  11. java 集合之HashMap 源码阅读记录
  12. Unity【SwitchableObject】- 实现一个物体开关控制系统
  13. “燕云十六将”之Shirley张艳(5)
  14. 大数据分析-第二章 大数据平台
  15. 四步教你破解隔壁老王的Wi-Fi密码,蹭网没商量!
  16. get,post区别
  17. 中国移动的企业文化 ,以及中国移动都有那些业务?
  18. vue中h5项目怎么使用weui
  19. 2015-05-22-csharp-MSMQ简介和简单例子
  20. phpstorm 补丁方式 creak

热门文章

  1. 如何在mac上面看充电器的瓦数!
  2. 这个学期的总结,下个学期比较坑的事情和要注意的点
  3. .NET和UNITY版本问题
  4. nginx A/B 灰色发布
  5. 结对编程2——单元测试
  6. 使用ENTER模拟触发表单提交或者click事件
  7. Qt之进程间通信(IPC)
  8. HeartBeat Install
  9. [经典面试题]二叉树宽度
  10. Android UncaughtExceptionHandler 全局异常监控