作者 | 马超  责编 | 欧阳姝黎

出品 | CSDN博客

头图 | 下载于视觉中国

最近整个半导体行业实在风起云涌,IBM 推出了 2nm 的芯片,苹果春季发布会上搭载 M1 的 iPad Pro 再度炸场、四月中旬 ARM 推出了新一代的 ARMv9、英特尔也拿出了最的至强三代 Ice Lake-SP,四月初英伟达推出号称能将 AI 算力提升 10 倍的 CPU 芯片 Grace,年初 AMD 的 ZEN3 系列芯片也正式亮相。接下来,笔者带大家看一下半导体的巨头们到底打的什么技术牌。

指令集-RISC vs CISC宿命的对决

我们在聊龙芯的时候,有热心的读者就说希望把 CISC 的 X86 指令与龙芯 LoongArch 进行对比,这次我们就来详细聊一下这方面的话题,目前 RISC 阵营的最强处理器苹果 M1 其之所以性能如此劲爆,8 路的译码器提供了强大的助力作用。我们根据代码来看一下这方面的情况。

Int a;Int test(void){Return a;}

上述代码在 X86 的处理上,反编译之后得到的汇编语言如下,具体反编译的过程请大家参考《龙芯自主指令集到底强在何处》这里不加赘述了。

 test o: file format elf64-x 86-64Disassembly of p. text:0000000000000000<test>:Int a;int test(void)(0:55 push %rbp1:48 89 e5  mov %rsp %rbreturn a:4:8b 05 00 00 00 00 mov 0x0(%rip),%eax #a <test+Oxa>}a: c9 leaveqb: c3    retq

对应 ARM 平台的汇编指令如下:

00000000 <test>: int a; int test(void) {return a;} 0: e52db004 push {fp} ; (str fp, [sp, #-4]!)4: e28db000 add fp, sp, #08: e59f3010 ldr r3, [pc, #16] ; 20 <test+0x20>c: e5933000 ldr r3, [r3]10: e1a00003 mov r0, r314: e28bd000 add sp, fp, #018: e49db004 pop {fp} ; (ldr fp, [sp], #4)1c: e12fff1e bx lr20: 00000000 .word 0x00000000

可以看到 X86 的汇编语言相对比较短,因为 CISC 一条指令可以完成比较复杂的任务,不过本质上讲这段程序在 X86 的执行过程就是由 push %rbp 来构造栈,然后就可以把%eax 赋值给结果就完成了。

但是 X86 这样的做法也有着反噬,我们可以把 push move 这些指令左边的数字简单为机器指令,可以看到 X86 为代表的 CISC 是不定长的,而龙芯 LA64 和 ARM 是定长的,对比 CISC 的架构来看现代的 RISC 芯片一般都是以流水线机制运行。像 AMD 最新的 ZEN3 系列 CPU,也只配备了 4 个译码器,因为不定长所以 X86 的 CPU 必须对可能的编码开始位置同时进行译码,并处理很多的错误,我们在前文也介绍过计算机的运行就怕分支预测,一旦预测不准,就会在流水线上产生气泡,这所带来的惩罚效应惊人。

多路译码的关键在于以 ARM 为代表的 RISC 指令集基本上是定长的,这也是苹果 M1 能有 8 路译码器的原因,当然从结果上看,ZEN3 还是要比 M1 略强一点的,但是 ZEN3 的译码器主频是 5Ghz,而 M1 只有 3.2Ghz,个人认为苹果之所以没有将 M1 的主频调教的很高还是出于控制能耗原因,而不代表他不能这么做。因此从这个角度来看未来在桌面领域 X86 为代表的 CISC 恐怕前景不妙。

多方安全计算-软硬结合才是趋势?

之前笔者曾经写过一篇《ARM V9 到底强在哪》(https://blog.csdn.net/BEYONDMA/article/details/115494678)曾经指出过 ARM V9 的有一项重要的新特性就是安全计算指令集,但是当时笔者并不太看好这项技术,上周F发布的《为什么谷歌被骂上热搜一点也不冤,详解 FloC 背后联邦计算》也指出 FloC 其实是一种联邦计算技术。

说起安全计算这项技术,他的历史已经非常久远了,这个问题起源于百万富翁问题,假如两个百万富翁街头邂逅,他们都想炫一下富,比比谁更有钱,但是出于隐私,都不想让对方知道自己到底拥有多少财富,如何在不借助第三方的情况下,让他们知道彼此之间到底谁更有钱?针对百万富翁问题上世纪80年代,清华大学的姚期智院士提出了解决方案,并因此获取了图灵奖,从理论层面证明了多方可信计算问题的可行性。

其实英特尔安全计算指令集的 SGX 技术早在几年前就已经实现了,这是一种从硬件角度打消用户疑虑的技术,安全计算指令集实际是给计算机加了一个安全密室,即使拥有最高权限的特权管理员也不能进入安全密室,更无法在安全密室前布放监控。安全密室与外界的一切交互全部要经过加密并进行完整性校验。

但当时 SGX 能创建的内存空间只有 128M,而目前的 AI 机器学习模型动辙要上百 M,大的甚至要几十上百个 G,当时的 SGX 根本放不下这样的模型,无法在多方安全计算中使用。不过这次英特尔至强三代的 Ice Lake-SP 和即将到来的 ARM V9 中都可以支持 TB 级的安全空间,可见安全计算也是巨头们的一个重要发展方向。但在实践层面多方安全计算依然困扰业界,如果两个富翁只比一次那么一切好说,但是如果有恶意假扮者,不断和同一个富翁A比富,那么富翁A的信息泄漏是迟早的事。

笔者看到目前比如像蓝象智联的 GAIA CUBE 等联邦计算平台,就有将区块链技术与硬件安全计算结合的方案,避免同一用户的信息被不断的碰撞学习,保障数据安全性,做到最终数据可用不可见,打破数据孤岛。软硬结合实现安全联邦计算可能是一个今后业界发展的重要趋势之一。

AI 算力-可变长 SIMD VS 内存-显存通道提速

我们看到最近亮相的英特尔的至强三代 Ice Lake-SP 和安谋的 ARM v9 以及英伟达的首款 CPU 处理器 Grace,都把宝押在了 AI 算力方面。不过显然英伟达选择的技术路线与英特尔以及 ARM 不同,虽然 Grace 是基于 ARM 的,但是黄教主的方案是打通内存与显存之间的数据交换瓶颈。

正如我们刚才所说 ARM 等 RISC 处理器在指令预测等方面同天然比 X86 更有优势,能耗也比 X86 更低。当然这些都是 ARM 相对于 X86 的传统优势,本次 Grace 最大的创新点在于把 CPU 与 GPU 之间的通信速度提升了近 10 倍。根据黄仁勋的说法,“这是一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。”

CPU 和 GPU 的通信速度的重要性,也可以用苹果 M1 的例子来加以说明,我们知道苹果 M1 显卡与内存加在一起只有 16 个 G,对比上一代 Mac PRO 内存 128G,光是显存都有 16G,不过搭载 M1 的入门版 Mac 在进行图像处理等需要 CPU 与 GPU 进行协同的运算任务时,至少比上一代顶配的 Mac 性能高出近一倍。其中的秘决就是将内存与显卡进行统一管理,从而大大提高了 CPU 与 GPU 的通信效率。Grace 体系中 GPU 核心与 CPU 核心之间的通信不需要 CPU 的调度,也不需要占用数据总线的带宽,之前 CPU 必须将数据从其内存的区域复制到 GPU 使用的区域,而在 Grace 的加持下,CPU 只需要告诉 GPU 在内存的某位置有 30MB 的向量数据,然后就可以去做其它事了,GPU 则可以通过 Grace 复制通道迅速开始计算任务。

同时我们把目光转移到 Grace 发布上,英伟达还拿出了很多软件产品,比如 Transformers 训练框架 NVIDIA Megatron、Morpheus 数据中心安全平台、新一代人工智能对话机器人 NVIDIA Jarvis、推荐系统是 NVIDIA Merlin、隐私保护加强的 AI 辅助套件 NVIDIA TAO,今后软硬结合的一体化计算框架可能也会成为趋势。

云计算的激烈争夺

在英伟达发起了收购 ARM 的要约之后,必然预示云计算市场将是各大巨头重要的争夺方向。

在云计算这种多租户的场景下,可能有很多用户依靠虚拟化技术使用同一 CPU 工作,这就要求不同用户使用的内存要严格隔离,因此苹果 M1 以及英伟达 Grace 将内存与显存混用打通 CPU 与 GPU 的方式不利于虚拟化的加速。基于上述原因,目前英伟达和苹果 M1 的算力提升还暂时影响不到云计算市场,目前英特尔在云计算方面还是占据不少优势。据笔者了解到的情况看,在最新的至强三代 Ice Lake-SP 系列中中有两款专为云计算虚拟机和容器进行优化的型号,其中

P后缀:专为虚拟化层提供优化,为虚拟机提供更高的频率。

V后缀:代表为 SaaS 优化,针对高密度、低功耗容器环境,提高编排效率。

阿里云是目前使用至强三代比较多的国内云厂商之一。阿里云与英特尔同步发布的第七代 ECS 云产品,搭载的就是这款 Ice Lack,如果笔者所料不错的话,其小型号就应该是我们刚刚提到的 8358P 系列的芯片。

以上就是笔者对于最近半导体行业最新进展的一些解读,欢迎大家一起交流探讨。

更多精彩推荐  Python 爬影评,《悬崖之上》好看在哪里?
美国燃油“动脉”被黑客切断,网络安全走向哪里?专访山石网科热文 | 卷积神经网络入门案例,轻松实现花朵分类
AI 3D 传感器市场竞争白热化,中国掌握自主可控核心技术时不我待!小心!你家的 IoT 设备可能已成为僵尸网络“肉鸡”
点分享点收藏点点赞点在看

王炸不断,半导体巨头们到底在打什么牌?相关推荐

  1. 巨头王炸不断,硬核解读芯片技术路线

    上周我在博客发布了一篇<龙芯自主指令集到底强在何处>的文章,虽然这只是一篇临时起意之作,信息有限的拙作,不过最近整个半导体行业实在风起云涌,上周四IBM推出了2nm的芯片,苹果春季发布会上 ...

  2. 对于斗地主自己视角断王,且出现王炸概率的分析

    一副扑克牌(54张)出现王炸的概率根据其他人计算为32.29%,但是我们往往感觉概率比这个数字大得多,这是因为出现这个感觉的前提是自己的视角还断王.所以,分析一下如果叫分之后,自己手上断王且外面出现王 ...

  3. HPE品牌存储为啥高调? 因为“王炸”多啊!

    作为紫光华山的两个品牌,HPE.H3C推广有条不紊的进行着.不久前全新H3C品牌存储产品亮相,而同样HPE品牌存储产品更是新品不断.这么看来给存储业界的感觉就是,看似平静的存储市场,好像有一只庞然大物 ...

  4. 苹果出5g手机吗_华为打响5G手机第一枪,苹果却扔出620亿“王炸”,任正非:榜样...

    Hello,大家好,欢迎收看本期科技资讯! 大家都知道,自华为.小米等国产手机崛起之后,美国手机巨头苹果在中国市场接连失利,已经连续多个季度出现销量下滑的情况了,加上与高通的"爱恨情仇&qu ...

  5. 王炸-GPT4.0的新能力与商业价值

    转自微信公众号:嵌入式单片机之家 有多王炸 ? GPT-4 可以接受文本和图像输入,允许用户指定任何视觉或语言任务.具体来说,它在给定文本和图像输入的情况下能够生成文本输出(自然语言.代码等).在一系 ...

  6. 杭电出了“王炸班”!考研3个清北8个浙大,就业人均起薪30万+

    Datawhale分享 学霸班:杭州电子科技大学,人工智能学院 杭州电子科技大学人工智能学院出了一个学霸"王炸班",56人中34人考研上岸,17人考上985,8名浙大,2名清华,1 ...

  7. hilink互联技术_华为负重前行,打出王炸HiLink技术,引爆国内生态链格局

    原标题:华为负重前行,打出王炸HiLink技术,引爆国内生态链格局 近年来,在5G加持下,AI智能.物联网都在以家庭为场景的环境下展开,智能家居也因此呈现出飞速发展的事态.现在的家居行业不仅仅只是格力 ...

  8. 全新发布的欧拉,华为手中的新“王炸”

    华为全联接2021上,面向数字基础设施的开源操作系统欧拉(openEuler)全新发布. 根据华为官方的介绍,欧拉开源操作系统可广泛部署于服务器.云计算.边缘计算.嵌入式等各种形态设备,应用场景覆盖I ...

  9. “疫”外保住半导体巨头颜面  为何英特尔财报超预期股价却唱反调?

    北京时间4月24日,英特尔对外发布2020年第一季度财报.从财报来看,英特尔在营收跟净利润上均保持一定同比增长.尽管一季度业绩超华尔街分析师预期,但由于疫情影响英特尔取消全年展望,二季度调整后每股收益 ...

最新文章

  1. IC/FPGA校招笔试题分析(一)
  2. 图片浏览器每次只能打开一张图片_那些你可能不知道的浏览器奇技淫巧
  3. 近期论文中的数据集整理0409
  4. linux部署项目路径如下
  5. zookeeper学习03 使用场景
  6. QT中border-image的解释
  7. LR运行9415商品拒绝问题
  8. [译文]Domain Driven Design Reference(六)—— 提炼战略设计
  9. 百练6183-人民币支付-2014正式A题
  10. go语言之进阶篇字符串转换
  11. 【STM32H7的DSP教程】第8章 DSP定点数和浮点数(重要)
  12. “小而美”走到十字路口,吉利或收购魅族助车机闭环
  13. [Python]更改图片底色
  14. 基于auto.js的安卓抢购软件---淘宝抢购小助手(不完善,仅供参考)
  15. 将列表类型的数据转换为树形数据
  16. 终端模拟器怎么用android命令大全,终端模拟器命令大全apk下载-终端模拟器刷入recovery手机版下载V1.0.70安卓最新版-西西软件下载...
  17. [Android6.0][MTK6737] 修改默认允许位置来源第三方应用安装
  18. 北上资金 python_股票数据抓取——北上基金持股数据(selenium抓取数据),爬取,之,北向,资金,通过...
  19. Android activity进出动画,类似于左右拉窗帘效果
  20. 【设计模式】2.工厂模式

热门文章

  1. 用拉链法实现哈希算法的运算
  2. 【冷门实用小工具】轻量级流程图工具ClickCharts PRO绿色版,ClickCharts PRO下载【亲测有效】
  3. Html,Css,Javascript是什么?
  4. Linux命令-安装zip和unzip命令
  5. Windows10安装Mysql5.7.19.0 msi 版本报错
  6. 最优化:拉格朗日乘子法
  7. 存储过程和存储函数初步
  8. 《千只鹤》--[日]川端康成
  9. windows下apache配置虚拟主机的两个方法
  10. 大规模服务设计部署经验谈