移动端TB(D)R架构基础

百人计划学习链接：【技术美术百人计划】图形 3.7 移动端TB(D)R架构基础

一、当前移动端的设备概况

1. 移动端CPU占比

2. 移动端GPU占比

3. 各类电子设备功耗对比

4. 带宽比较

二、专有名词解释

1. SOC(System on Chip)

System on Chip（Soc）Soc是把CPU、GPU、内存、通信基带、GPS模块等等整合在一起的芯片称呼。
常见有A系Soc（苹果），骁龙Soc（高通），麒麟Soc（华为），联发科Soc，猎户座Soc（三星），去年苹果推出的M系Soc，暂用于Mac，但这说明手机、笔记本和PC的通用芯片已经出现了

2. 物理内存(System Memory)

Soc中GPU和CPU共用一块片内LPDDR物理内存，就是我们常说的手机内存，也叫System Memory，大概几个G。

此外CPU和GPU还分别有自己的高速SRAM的Cache缓存，也叫On-chip Memory，一般几百K~几M。

不同距离的内存访问存在不同的时间消耗，距离越近消耗越低，读取System Memory的时间消耗大概是On-chip Memory的几倍到几十倍。

PS：手机上GPU和CPU是共享一个内存地址空间（PC上一般分为内存和显存）

3 .On-Chip Buffer

在TB(D)R架构下会存储Tile的颜色、深度和模板缓冲，读写修改都非常快。

如果Load/Store指令中缓冲需要被Preserve，将会被写入一份到System Memory中。

4 .Stall

当一个GPU核心的两次计算结果之间有依赖关系而必须串行时，等待的过程便是Stall。

5.FillRate 像素填充率

像素填充率 = ROP运行的时钟频率 x ROP的个数 x 每个时钟ROP可以处理的像素个数

三、关于TBDR

什么是TBDR？

TBR（Tile-Based (Deferred) Rendering）是目前主流的移动GPU渲染架构，对应一般PC上的GPU渲染架构则是IMR（Immediate Mode Rendering ）。

通俗的讲就是：屏幕被分成很多块进行渲染

TBR和TBDR的区别

TBR ：顶点着色器——》Defer———》光栅化——》像素着色器
TBDR ：顶点着色器——》Defer———》光栅化——》Defer——》像素着色器

什么是Defer？
从字面上理解就是延迟（处理）；从渲染数据的角度上看，Defer是批处理一帧中的多个数据（后面详细有讲）

四、关于IMR

没有Defer的操作：用户数据——》顶点着色器———》光栅化——》片段着色器

渲染管线如下：直接和系统内存进行交互

五、TB(D)R详细的渲染流程

1. TB(D)R宏观上总共分2个阶段

简单的说：

第一步：将分图元到对于的块上，确定Tile上的图元有哪些
第二步：在片元着色器计算后先将结果写到块内存（Tile Buffer）中，最后在写到系统内存（System Memory）上

TBDR详细示意图：
TBDR中有一个Tiling的过程：将几何着色器计算出的顶点数据刷到系统内存(System Memory)上
最终经过片元着色器计算的结果，将会被刷到片内存（Tile Buffer）上面，在最后的操作才是把片内存写入Frame Buffer中

2. TBR与IMR的一些对比

a图为TBR，B图为IMR

3 .TBR的优缺点

TBR的核心目的是降低带宽，减少功耗，但渲染帧率上并不比IMR快

优点：

TBR给消除Overdraw提供了机会，PowerVR用了HSR技术，Mali用了Forward Pixel Killing技术，目标一样，就是要最大限度减少被遮挡pixel的texturing和shading。
TBR主要是缓存友好，在缓存里头的速度要比全局内存的速度快的多，以及有可能降低帧率为代价，来降低带宽，省电

缺点：

分配图元过程（bining 过程）：这个过程在vertex阶段之后，将输出的几何数据写入到系统内存，然后才被fragment shader读取。几何数据过多的管线，容易在此处有性能瓶颈
如果某些三角形叠加在数个tile（块）上，则需要绘制数次。意味着总渲染时间将高于即时渲染模式

4 .TBDR中的D——Defer是什么

Bining过程（类似四叉树）/第一个Defer

将需要处理的图元分配到对应的块中，来进行处理

不同GPU的Eearly-DT/第二个Defer

Android的处理

FPK技术：

IOS的HSR技术：

六、TB(D)R的优化建议

1. 记得不使用Framebuffer的时候clear或者discard

主要是清空积存在tile buff上的中间数据，所以在unity里面对render texture的使用也特别说明了一下，当不再使用这个rt之前，调用一次Discard。在OpenGL ES上善用glClear，gllnvalidateFrameBuffer避免不必要的Resolve（就是tile buff刷新到system memeory）行为

2. 要在一帧里面频繁的切换framebuffer的绑定

本质上就是减少tile buffer 和system memory之间的的stall（同步）操作

3. 对于移动平台，建议你使用 Alpha 混合，而非 Alpha 测试

在实际使用中，你应该分析并比较 Alpha 测试和 Alpha 混合的表现，因为这取决于具体内容，因此需要测量，通常在移动平台上应避免使用 Alpha 混合来实现透明。需要进行 Alpha 混合时，尝试缩小混合区域的覆盖范围

4. 其余优化

手机上必须要做Alpha Test，先做一遍Depth prepass
图片尽量压缩例如:ASTC ETC2
图片尽量走 mipmap
尽量使用从Vertex Shader传来的Varying变量UV值采样贴图（连续的），不要在FragmentShader里动态计算贴图的UV值（非连续的）
在延迟渲染尽量利用Tile Buffer 存储数据
如果你在Unity 里面调整 ProjectSetting/Quality/Rendering/Texture Quality 不同的设置，或者不同的分辨率下，帧率有很多的变化，那么十有八九是带宽出问题啦
MSAA其实在TBDR上反而是非常快速的。
少在片元着色器中使用 discard 函数，调用gl_FragDepth从而打断Early-DT( HLSL中为Clip，GLSL中为discard )
尽可能的在Shader里使用浮点数，有目的的区分Half Float，好处：（1）带宽用量减少（2）GPU中使用的周期数减少，因为着色器编译器可以优化你的代码以提高并行化程度。（3）要求的统一变量寄存器数量减少，这反过来又降低了寄存器数量溢出风险。
在移动端的TBDR架构中，顶点处理部分，容易成为瓶颈，避免使用曲面细分shader，置换贴图等负操作，提倡使用模型LOD,本质上减少FrameData的压力，Unity中尽早在应用阶段借助umbra（unity自带的剔除功能）遮挡剔除

图形学进阶——移动端TB(D)R架构基础相关推荐

移动端TB(D)R架构基础
目录 1 各类电子设备功耗对比 2 名词解释 3 立即渲染 4 TBDR渲染流程 5 Binning过程(第一个Defer) 6 不同GPU的Early-Depth-Test(第二个Defer) 7 ...
百人计划（图形部分）移动端TB(D)R架构基础
霜狼_may的个人空间_哔哩哔哩_Bilibilihttps://space.bilibili.com/7398208?spm_id_from=333.788.b_765f7570696e666f.1 ...
【TA-霜狼_may-《百人计划》】图形3.7 移动端TP（D）R架构
[TA-霜狼_may-<百人计划>]图形3.7 移动端TP(D)R架构 @[TOC]([TA-霜狼_may-<百人计划>]图形3.7 移动端TP(D)R架构 3.7.1 当前移 ...
TA100 T3.7 TB(D)R
1.部分相关名词 System Memory 手机内存,几个G到十几个G的那种,也是常说的DDR On Chip Memory 手机自身的SRAM缓存,容量挺小(几百K到几M),但读写巨快在TB(D ...
Apollo进阶课程㊲丨Apollo自动驾驶架构介绍
原文链接:进阶课程㊲丨Apollo自动驾驶架构介绍自动驾驶硬件架构:一般采用激光雷达作为主要感知传感器,同时结合摄像头.GPS/IMU.毫米波雷达.超声波雷达等,以NVIDIA Drive PX2 ...
服务端高并发分布式架构演进之路（转载，图画的好）
这个文章基本上从单机版到最终版,经历了加缓存,加机器,高可用,分布式,最后到云等过程,其实我一直想总结一套类似的东西,没想到有人已经先弄出来了,那就不重复造轮子了,而且我感觉这个文章也是花了功夫的. ...
IT：后端进阶技术路线图(初级→中级→高级)、后端开发工程师(技术方向分类之后台业务开发/中间件/内核/分布式架构)基础知识简介、技术路线/技术趋势指南(如何选择自己的技术方向)之详细攻略
IT:后端进阶技术路线图(初级→中级→高级).后端开发工程师(技术方向分类之后台业务开发/中间件/内核/分布式架构)基础知识简介.技术路线/技术趋势指南(如何选择自己的技术方向)之详细攻略目录后端 ...
服务端高并发分布式架构演进之路
服务端高并发分布式架构演进之路概述基本概念架构演进单机架构第一次演进:Tomcat与数据库分开部署第二次演进:引入本地缓存和分布式缓存第三次演进:引入反向代理实现负载均衡第四次演进:数 ...
服务端高并发分布式架构演进之路(阿里巴巴90秒100亿)
服务端高并发分布式架构演进之路阿里巴巴为什么能抗住90秒100亿? 1. 概述本文以淘宝作为例子,介绍从一百个到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大 ...

图形学进阶——移动端TB(D)R架构基础