ARM’S V9 ARCHITECTURE EXPLAINS WHY NVIDIA NEEDS TO BUY IT

我们中的许多人一直在绞尽脑汁,为什么Nvidia会花费巨资--高达400亿美元--来收购Arm Holdings,一家销售额在20亿美元左右的芯片架构授权公司--自从2020年7月传出该交易后。当我们坐在那里聆听Arm Vision Day对Arm V9架构的介绍时,我们可能已经明白了,该架构将定义从物联网设备中的微小嵌入式控制器一直到数据中心的大规模CPU的处理器。

正如我们在交易前的原始分析中,在2020年9月交易宣布当天的分析中,以及在2020年10月与英伟达联合创始人兼首席执行官黄仁勋的一对一谈话中指出的那样,有各种积极因素。

我们已经说了很久,我们相信Nvidia需要控制自己的CPU的未来,甚至和黄开玩笑说,它不需要非得买下所有的Arm控股公司来制造最好的Arm服务器CPU。对此,他回应说,这确实是一个千载难逢的机会,通过Arm授权渠道来创造价值和推动Nvidia的所有技术(用于计算和图形的自有GPU以及Mellanox网络接口芯片、DPU处理器和交换机ASIC),使它们都具有可塑性,但又是标准化的,因为Arm的这种授权模式不仅允许使用,而且鼓励改进。

黄会第一个告诉你,Nvidia不可能为每一种情况创造每一种处理器,事实上没有一家公司可以做到。这就是为什么Arm生态系统不仅需要被保护,而且需要以只有像Nvidia这样的相对大公司才能实现的方式进行培养和扩展。(软银被其在全球的投资的财务困境所困扰,基本上不得不出售Arm以修复其资产负债表。这对Nvidia来说是一个买入的机会,Nvidia实际上只花了120亿美元的现金来获得Arm的控制权;其余的是股票市值的钱,从某种意义上说,这是Nvidia可以用来填补剩余280亿美元的 "免费 "资金)。

我们坐在这些采访中,咀嚼着这一切,并将其归结为又一个科技巨头拥有足够的资金来做一件大事。但是,当我们观看Arm首席执行官西蒙-西格斯和Arm技术团队其他成员的愿景日演讲时,他们一直在谈论将更多的矢量数学、矩阵数学和数字信号处理引入即将推出的Arm V9架构。突然间,一切都变得清晰起来:Nvidia和Arm都相信,在一个现代的、大规模分布式的世界里,各种计算都将被定制,以尽可能在本地运行分析、机器学习和其他类型的数据操作和交易处理或预处理,而单一的、兼容的基板将是为许多工作负载创建这种可塑计算结构的最佳答案。这必然意味着,两家公司都绝对相信,在许多情况下,CPU-GPU混合计算模式的适用性将不会也不可能发挥作用。

换句话说,Nvidia的GPU计算业务有一个扩张的极限,也许它比我们许多人所想的要低得多。钟摆将摆回到具有嵌入式矢量和矩阵能力的专用CPU上,为特定算法进行高度调整。这将特别适用于需要本地计算的中间边缘计算和终端物联网设备,因为将数据运回数据中心处理,无论在技术上还是经济上都没有意义。

Arm研究员兼机器学习部门总经理Jem Davies给出了一个完美的例子,说明经济力量正在推动计算走出数据中心,进入一个更加分散的数据星系,正如我们三年前所说的那样。

"在Armv9的时代中,合作伙伴将创造一个由Arm AI支持的未来,在设备上有更多的machine learning,"Davies解释说。"随着超过80亿的语音辅助设备。我们需要在1美元以下的微控制器上进行语音识别。在服务器上处理一切,无论从物理上还是财务上都是行不通的。云计算带宽不是免费的,在设备上识别是唯一的方法。一个使用云服务的语音激活咖啡机每天使用10次,设备制造商每年要为每个设备花费15美元左右。在设备上计算ML也有利于延迟、可靠性和关键的安全性。"

为了让这个问题更加深入人心,如果带有语音识别功能的咖啡壶使用了四年,那么在咖啡数据中心处理数据的语音识别成本将抹去该咖啡壶的全部收入来源,但是同样的功能,如果在专门为这项非常精确的工作而调整的设备上实现,可以以低于1美元的价格完成,并且不会显著影响购买价格。而且,我们认为,咖啡机制造商可能会对语音识别收取一定的费用,并在相当短的时间内收回添加到咖啡壶中的技术的部分或全部投资,直到它成为常态。就像几十年前在咖啡机上安装时钟和计时器一样,让我们都能通过在前一天晚上准备好咖啡豆和水,在早晨醒来时喝上一杯热腾腾的咖啡。

对咖啡机来说是这样,对其他数千亿设备也是这样,从客户端到边缘,和从客户端到数据中心。

在未来十年里,将有数以百万计的这样的例子横跨数千亿的设备,这就是为什么Armv9架构中,Arm工程师正计划做出如此多的改变。当然,这些变化将逐渐出现,就像大多数IT人士熟悉的Armv7和Armv8架构一样,因为这些设计恰好是Arm作为智能手机和平板电脑首选电机的崛起,以及在数据中心基础设施中越来越多的使用,包括但不限于服务器。

这是一个关键的问题,在我们观察IT行业发展的几十年中,我们已经以许多略有不同的方式提出了这个问题:世界是否需要一个单一的、可塑性强的、兼容的基体?我们的意思是,在未来的十年里,是否将是Arm公司帮助IT行业挥别X86的时候?从1997年诺基亚6110手机的推出和2007年苹果iPhone的推出开始,移动电话和随后的智能手机的兴起使Arm架构与X86指令集发生了碰撞。

随着服务器芯片制造商Calxeda在2010年的推出,我们认为有些东西可以给X86的服务器带来冲击,就像X86对RISC/Unix和RISC/Unix在之前几十年数据中心计算中对专有CISC的冲击一样。在过去的十年里,我们看到Arm服务器芯片制造商来了又走。但今天情况不同了。亚马逊网络服务公司已经是世界上最大的Arm服务器制造商,它的Graviton2芯片,而且看起来微软可能正在开发自己的Arm服务器芯片。安培计算公司也在推出一套不错的Arm服务器处理器。富士通的A64FX在日本的 "Fugaku "超级计算机上取得了巨大的成功,欧洲的SiPearl公司和中国的海力士公司也在继续投资于新的系统芯片。

尽管迄今为止在服务器方面存在很多失望--以及一些成功--但很难对Arm下注。如果Nvidia在其400亿美元的收购中获胜,只要Nvidia不捣乱,那么数量和势头都在Arm架构一边。(我们不相信Nvidia会改变Arm的授权,并相信黄先生本人所说的Nvidia将通过Arm的授权管道提供更多而不是更少的技术)。在他的主题演讲中,Segars说,到2021年底,Arm的合作伙伴将基于其架构累计出货2000亿台设备。第一个1,000亿花了26年时间,因为Acorn计算机演变成Advanced RISC Machines并转变为Arm控股公司。第二个1,000亿颗芯片(到2021年底)只花了5年时间就卖出。而在2021年底和本十年末之间,塞格斯预测Arm将再销售3000亿颗芯片。如果按照历史推算,那么在2021年这里的运行速度是每年200亿颗芯片,但到2030年每年大约550亿颗。预计Arm部署的变化速度本身也会加快。

这些Arm芯片有多少会出现在数据中心、不同级别的边缘以及终端内,还有待观察。虽然根据IDC的数据,Arm服务器的出货量在第四季度增长了4.5倍,但它的基数很小,这并没有真正影响英特尔在数据中心服务器的霸权。正如我们几年前所报道的,Arm曾希望到现在能占到服务器出货量的20%,并一度将其期望值提高到2020年的25%。这还远远不够。而AMD凭借其Epyc处理器的重新崛起也没有起作用。但只有傻瓜才会把Arm算进去。正如我们几个月前讨论的那样,Arm服务器的希望是永恒的。

就我们地区而言,直到Armv7加入了40位内存寻址(LPAE)、硬件辅助的服务器虚拟化和矢量浮点(VFP)单元,以及高级SIMD扩展(使整数和浮点矢量指令成为该架构的原生指令),Arm才成为可能的服务器指令集。但是,真正需要的是2011年推出的Armv8架构,其内存扩展到64位,才能成为一个好的服务器芯片,在过去十年中,有一系列技术被添加到这个架构中,使其成为一个非常好的服务器芯片指令集。

"该架构不是一个静态的东西,"Grisenthwaite解释说。"我们不断地创新和发展它,以满足计算世界不断变化的需求。自从我们在Armv8中引入64位处理后的几年里,我们增加了许多扩展功能,例如改进了对虚拟化的支持,增加了float16和bfloat以大幅提高机器学习的性能,以及一些安全方面的改进,包括提高对面向返回的编程的弹性和对安全管理程序的支持。对Arm架构的创新从未停止"。

今天公布的Armv9架构在技术上被称为Armv9-A架构配置文件,其中A是 "应用 "的缩写,意在为客户和服务器设备指定最完整的功能集。R架构适用于 "实时 "用途,而M架构适用于不需要全套功能的 "微控制器",旨在实现低成本和低功耗用途。我们推测,R和M配置文件将很快被添加进来,而且根据制造芯片的Arm授权商、Arm芯片买家和竞争格局的意见,所有Armv9配置文件的功能集将根据市场需要而扩展。

在Armv9架构中,首先要注意的是,它是Armv8的超集,而且有绝对的向后兼容性。没有这一点,Arm就会淹死。

计算方面的第二件大事是支持可扩展矢量扩展2,或SVE2,矢量处理。

Arm自己的 "Ares "N1处理器内核设计不支持SVE,但Neoverse "Zeus "V1内核有一对兼容SVE2的256位矢量单元,"Perseus "N2内核将有一对128位SVE单元。我们推测,未来的 "Poseidon "Neoverse V2和N3内核将支持SVE2矢量单元,并具有上图所述的扩展能力。

"那项技术是以可扩展的方式设计的,以便用于超级计算机的概念可以应用于更广泛的产品,"Grisenthwaite说。"我们增加了更多的功能来创建SVE2,以加强可扩展的矢量扩展,为5G系统和许多其他用例做好工作,如虚拟和增强现实,也用于CPU内的机器学习。在接下来的几年里,我们将进一步扩展这一点,在CPU内执行基于矩阵的计算方面进行实质性的改进。"

这听起来确实不像是一家只打算将困难的数学问题推卸到GPU上的公司。

Armv9架构的最大部分与完全重塑处理器的安全模型有关,使Arm成为比X86处理器更好的选择,除了它可能更节能一点,成本可能更低一点。虽然这些都很重要,但企业可以在客户、边缘和数据中心设备的范围内部署更安全的芯片的想法,我们认为全世界的IT组织都将能够支持。

一项新的安全技术被称为内存标记扩展,它将使黑客更难利用隐藏在世界代码中的时间和空间的漏洞。

"分析世界上软件中被报告的大量安全问题,一个令人沮丧的现实是,许多问题的根源确实回到了过去50年中一直困扰着计算机的老式内存安全问题。两个特别常见的内存安全问题--缓冲区溢出和释放后使用--多年来似乎令人难以置信地持续存在。而问题的一个巨大部分是,它们经常在软件中存在多年才被发现和利用。"

虽然这是一个复杂的功能,但其想法是将存储在内存中的数据的可访问性信息与数据本身封装起来--我们认为这是一种面向对象的安全。如果一个指向内存的指针有一个标签,而当应用程序试图访问内存时,这个标签并不匹配--也许内存已经转移,或者访问超出了范围--标签检查失败,内存访问被拒绝。由于缓冲区溢出和空闲后使用的黑客,不再有对内存的访问。

我们经常谈论20%的价格/性能优势足以改变芯片指令集。这种安全的价值是什么,特别是如果它可以对应用程序透明地进行?我们将发现更多关于剑桥大学的CHERI项目以及Arm控股与微软、谷歌、剑桥大学和爱丁堡大学合作的衍生项目Morello,这些项目在Arm拉入Armv9架构时实现了内存标记。不是没有原因的,但IBM从1988年开始在其AS/400生产线上使用的专有CISC处理器就有内存标签,这种能力在1995年转移到了Power芯片上,今天仍然在IBM i后续平台上。也就是说,IBM并没有将内存标签用于安全,而是用于提高系统的性能。因此,这种使用似乎是新的。

Armv9的另一个新功能叫做Realms,它为Armv8时代发展起来的可信固件增加了一个新的、安全的地址空间扩展。

realm是一种内存分区,至少根据Arm公司开源软件副总裁Mark Hambleton的解释。因此,每个虚拟机将被托管在一个受保护的地址空间内,而不是像今天的管理程序所做的那样,与系统中的其他虚拟机隔绝,同样重要的是,与运行操作系统的不安全区域隔绝。我们的问题是:如果realm管理器可以做所有这些分割和保护工作,那么为什么还要有一个hypervisor呢。

可以肯定的是,这在Armv9-A架构中是一个高层次的功能,我们将随着Arm的发展了解更多。但真正的收获是,Arm相信在设备内以及跨设备的专门处理,是在摩尔定律走向邓纳德扩展的过程中不断推进计算的唯一途径。就像这样:

在未来十年里,软件将不得不与硬件共同设计,其规模之大令人咋舌,什么是大批量芯片的概念也将改变。在拥有一个有太多暗硅但单位成本更低的通用平台和拥有一个专门设计的具有所有正确功能的ASIC以满足特定工作负载之间,需要好好平衡。

这将是一个巨大的硬件-软件工程的头痛问题。有太多的选择。

参考:

https://www.nextplatform.com/2021/03/30/arms-v9-architecture-explains-why-nvidia-needs-to-buy-it/

码农的自我修养 - ARM V9架构的巨大价值相关推荐

  1. 码农的自我修养之 软件危机和软件过程

    码农的自我修养之软件危机和软件过程 软件危机和软件过程 没有银弹 基于组件的软件工程方法 再论没有银弹 基于组件的软件供应链 软件危机的根本问题 软件危机的展望 软件过程模型 软件的生命周期概述 描述 ...

  2. 码农的自我修养 - 关于ARM你需要知道的

    据ARM公司的工程师说,第九代Arm处理器架构可以在这十年的剩余时间里支持所有的分布式计算.Arm的崛起是否意味着我们所知道的中央处理器的终结? 关于Arm处理器架构在任何计算或通信市场--智能手机. ...

  3. 论一个糟糕的大数据码农的自我修养

    幸福的家庭都是一样的,不幸的家庭各有各的不幸 - 论一个糟糕的大数据平台工程师的自我修养 本来想写写如何成为一名优秀的大数据平台开发工程师,但说实话,这个话题太简单了!虽然我没有被Jeff dean大 ...

  4. 高效能码农的自我修养:5本书教你怎样科学学习,拒绝无用功

    导读:作为一枚苦逼的码农,你需要学习很多东西.但在开始的开始,你学会学习了吗?科学.高效的学习方法,会让你事半功倍.今天书单姐推荐5本书,为你带来26种黄金学习法则.11个高效能学习习惯.效率加法的2 ...

  5. 码农的自我修养 - 指令集架构种类

    指令集架构instruction set architecture (ISA),这是一个电脑模型的概括,有时也叫做计算机架构. ISA的具体实现有很多种,下面会介绍.不同的ISA实现在性能.物理空间和 ...

  6. 码农的自我修养 - 关于MinGW和Cygwin

    Windows下使用GCC套件,并且模拟Unix/Linux的操作环境,一般使用的是MinGW和Cygwin. 让我们来一起认识一下. MinGW Minimalist GNU for Windows ...

  7. 三十年软件开发之路:老码农的自我修养!

    [CSDN编者按]"千帆过尽仍少年",对于程序员来说,保留技术初心.不断提升实力是夯实自己的不二法则.而本文的作者,作为一名有着三十多年开发经验的"老"程序员, ...

  8. 码农的自我修养 - 流程图 Flowchart

    什么是流程图?   设计和文档化是一个过程,需要将不同的步骤从开始到结束都绘制出来.在这种情况下,一个错误就会导致整个系统崩溃,造成时间.金钱.资本设备的重大损失,甚至可能威胁到执行该过程的人力的安全 ...

  9. 【原创】论码农的财富修养

    <喜剧之王>里看到了演员的自我修养,然后想聊下码农的财富修养,这里不是聊理财,更多是保险Insurance: 保险是什么,是一种通过支付少量的保险费用来应对未知风险的机制,比如车险.财险. ...

最新文章

  1. Android的***.sh的开机服务添加
  2. linux权限sudo和su,Linux su和sudo命令的区别,并获得root权限
  3. mysql 左连接b表的一条数据_阿里java架构师教你怎么用mysql怒怼面试官
  4. java架构师之路:JAVA程序员必看的15本书的电子版下载地址
  5. 542. 01 Matrix
  6. (十三)linux中断底半部分处理机制
  7. lnmp环境配置laravel项目白屏问题
  8. Ubuntu安装sciki-learn及环境
  9. 关于一进入系统就注销的解决方法
  10. python安装request方法mac_Mac下python3使用requests库出现No module named 'requests'解决方法...
  11. Java学生管理系统-增删改查
  12. 思科模拟器路由器常见问题及操作记录
  13. 行测相关题,在线测评——图形找规律、逻辑思维
  14. VS2017安装CLR
  15. Deecamp 面试翻车记录
  16. matlab坐标轴为指数,matlab画图设置中,如何把坐标改称指数坐标以及修改范围?...
  17. dedecms5.7(织梦)源码解析之程序安装补全篇
  18. 农夫山泉背后的男人“有点狠”
  19. 方法重写的 两同 两小 一大
  20. 讲师征集令 | Apache DolphinScheduler Meetup分享嘉宾,期待你的议题和声音!

热门文章

  1. 按键精灵-随机获取不重复内容
  2. CFA1级 JC网课
  3. 机房动环设备集中监控数据运维云平台解决方案
  4. python如何撤销_python如何查看微信消息撤回
  5. Mysql查询当年去年当月上月
  6. Bandzip与360压缩
  7. BI与ClickHouse:探索式BI的OLAP技术演进之路
  8. 计算机excel实发工资高中低,EXCEL表格中计算实发工资的公式
  9. SAT作文-- 一篇优秀作文范例
  10. 低价神话缔造者!宏碁A500最全面评测