写在最前

因为华为项目的原因,最近开始了解Arm 的 GPU,也就是Mali。Mali的主要架构有两个,上一代架构是Midgard,新一代架构是Bifrost,这两个名字均出自北欧神话,一个是人间,一个是连接人间和神域的彩虹桥。这里主要介绍最近架构Bifrost的架构。

整体架构

下图就是Bifrost架构,Shader Core就相当于NVIDIA的SM,与NVIDIA不同的是,Mali的核心是可配置的,生产商可以根据需求自行设计自己的核数。同样的,各个core共享L2 cache,通过一个类似总线的GPU Fabric相连。

Shader Core架构

对于每个Shader Core的架构如下。其中Execution Engine(以下简写为EE)就类似NVIDIA的SP,但是不同的是,每个核中的EE数量很少。

主要单元有:

  1. Load/store unit

    用于处理所有的内存的读写(除了纹理内存),包括16KB L1 data cache.

  2. Varying unit

    这是一个专门为运算单元加速的单元。

  3. Texture unit

    这个单元是用来访问纹理内存的。

  4. ZS & blend unit

    适用于某些特定的OpenGL ES的操作。

Execution Engine

下图就是主要的架构,每个计算单元能够承载4个线程(在G76中可以承载8个线程)操作,也就是说对于mali GPU的warp大小是变化的,这warp对于内存还有什么调度都是相同的。

Arm GPU Mali简介相关推荐

  1. ARM GPU mali系列产品规划图或天梯图

    ARM GPU mali系列产品规划图或天梯图 一.arm MALI 图像处理器蓝图 二.Mali GPU天梯图 一.arm MALI 图像处理器蓝图 新一代GPU Mali G52/G31 发布,强 ...

  2. ARM GPU Mali底层架构

    ARM作为移动计算领域实际上的掌控厂商,对移动计算产品未来的发展方向有着决定性的能力.在GPU的发展上,从一开始Mali系列的弱势到现在Mali已经成为诸多厂商的首选,ARM在Mali GPU架构的发 ...

  3. TVM 优化 ARM GPU 上的移动深度学习

    TVM 优化 ARM GPU 上的移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长.与桌面平台上所做的类似,在移动设备中使用 GPU 既有利于推理速度,也有利于能源 ...

  4. TVM在ARM GPU上优化移动深度学习

    TVM在ARM GPU上优化移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长.与在台式机平台上所做的类似,在移动设备中使用GPU可以提高推理速度和能源效率.但是,大 ...

  5. RISC、CISC、 SIMD、FPU、MMX、SSE、SSEX、AVX、3D Now以及DSP、ARM的Neon简介

    CPU的指令集从主流的体系结构上分为精简指令集和复杂指令集,而在普通的计算机处理器基本上是使用的复杂指令集.在计算机早期的发展过程中,CPU中的指令集是没有划分类型的,而是都将各种程序需要相配合的指令 ...

  6. GPU 计算 - GPU 优化简介

    GPU 优化简介 原文 - An Introduction to GPU Optimization 采用 GPUs 加速简单的计算任务. 计算机处理的很多任务都会遇到大量的计算,耗时较多的问题:而且, ...

  7. Arm 发布Mali多媒体套件,机器学习将不再是高端手机的专享

    Arm近日宣布推出包含全新的视频.显示和图像处理器的Mali多媒体套件.新的IP套件可与现有基于DynamIQ的CPU和其他Arm IP无缝集成,从而实现Arm新一代针对主流移动设备和数字电视(DTV ...

  8. ARM SIMD NEON 简介 (翻译自 Introducing NEON Development Article)

    目录 NEON简介 SIMD是什么? ARM SIMD 指令集 NEON是什么? NEON架构概览 支持的数据类型 NEON寄存器 NEON指令 NEON开发 汇编器 Intrinsics 自动向量化 ...

  9. 关于ARM的一些简介

    计算机体系结构分类 两种典型的结构:  冯·诺依曼结构  哈佛体系结构 冯·诺依曼结构 冯·诺依曼机:将数据和指令都存储在存储器中的计算机.  计算系统由一个中央处理单元(CPU)和一个存储器组成.存 ...

最新文章

  1. 计算机原理说课教案,《 计算机组成原理 》 说课
  2. 《密码与安全新技术专题》第11周作业
  3. javaweb在线问卷系统_2020 最新流行的Java Web报表工具比对
  4. 为什么TCP是三次握手
  5. 依赖注入底层反射原理_PHP基于反射机制实现自动依赖注入的方法详解_php技巧...
  6. PMON和SMON的功能
  7. 微软按月收费桌面计划,Win 10 将变成 Win 365?
  8. 阿里的easyexcel
  9. 内核中断,异常,抢占总结篇
  10. 使用python对bin文件进行操作
  11. 2021零基础学习人工智能(AI)思想篇
  12. Java开发中常见的危险信号(中)
  13. jmeter实现UI自动化demo
  14. PostgreSQL 14 版本发布,快来看看有哪些新特性!
  15. jquery ajax golang,原生和jQuery的ajax用法-Go语言中文社区
  16. 哈工大 计算机系统大作业 程序人生-Hello’s P2P From Program to Process
  17. 自动编码器检测检测信用卡欺诈
  18. 计算机房颁奖词,成绩优异颁奖词.doc
  19. 苹果官方付费升级内存_新芯片、新电脑,或许还有苹果的新未来
  20. 互联网广告的发展现状与趋势分析

热门文章

  1. python指定爬取新浪新闻
  2. 卡迪夫大数据专业排名_英国:大数据专业哪家强
  3. mybatis报错# Cause: Cause: org.xml.sax.SAXParseException;
  4. matlab的协方差计算函数cov
  5. 云计算与linux运维哪个好,为什么很多人要学习Linux云计算运维进入IT行业呢?
  6. 铜陵三中2021高考成绩查询,铜陵2021高考最高分多少分,铜陵历年高考状元资料
  7. 从零开始搭建Linux服务器开发运行环境-详细步骤
  8. 【Spire.PDF】Evaluation Warning : The document was created with Spire.PDF for .NET.
  9. 智慧旅游虚拟现实解决方案
  10. Unittest框架介绍