CEREBRAS

来源:IEEE电气电子工程师

Cerebras Systems公司的CS-2人工智能训练计算机包含了世界上最大的单芯片,该公司透露,在计算机上增加新的存储系统可以提高神经网络的规模,它可以扩大至现有最大模型的100倍,可支持超过120万亿参数规模的训练。此外,该公司还提出了两个方案,通过连接多达192个系统和有效处理神经网络中的所谓“稀疏性”来加速训练。Cerberbas的联合创始人兼首席硬件架构师Sean Lie在近日的IEEE Hot Chips 33会议上详细介绍了所涉及的技术。

这些发展来自四种技术的组合:Weight Streaming、MemoryX、SwarmX和Selectable Sparsity。前两种方法将神经网络的规模扩大了两个数量级,CS-2可以训练两个数量级的神经网络,它们改变了计算机的工作方式。

CS-2设计用于快速训练大型神经网络。节省的大部分时间来自这样一个事实:芯片足够大,可以将整个网络(主要由称为权重和激活的参数集组成)保留在芯片上。其他系统会损失时间和电源,因为它们必须不断地将网络的一部分从DRAM加载到芯片上,然后将其存储起来,为下一部分腾出空间。

有了40G的片上SRAM,计算机的处理器WSE2甚至可以容纳当今最大的通用神经网络。但这些网络正在快速增长,仅在过去几年中就增长了1000倍,现在已接近1万亿个参数。因此,即使是晶圆大小的芯片也开始填满。

要理解解决方案,首先必须了解一些培训过程中发生的情况。训练包括将神经网络将要学习的数据流化,并测量网络离准确度有多远。这种差异被用来计算“梯度(gradient)”——如何调整每个权重以使网络更精确。这种梯度在网络中逐层向后传播。然后重复整个过程,直到网络达到所需的精度。在大脑最初的方案中,只有训练数据流到芯片上。权重和激活保持不变,梯度在芯片内传播。

Feldman解释说:“新的方法是保持所有的激活状态,并输入[重量]参数。”该公司为CS-2构建了一个名为MemoryX的硬件插件,该插件将权重存储在DRAM和闪存的混合中,并将其流式传输到WSE2中,在WSE2中,权重与存储在处理器芯片上的激活值进行交互。然后梯度信号被发送到存储器单元以调整权重。该公司表示,通过weight streaming和MemoryX,单个CS-2现在可以训练一个具有多达120万亿个参数的神经网络。

Feldman表示,他和他的联合创始人在2015年成立该公司时就看到了weight streaming的必要性。我们一开始就知道我们需要两种方法,”他说,“然而,我们可能低估了世界将以多快的速度达到非常大的参数大小。”Cerebras在2019年初开始为weight streaming增加工程资源。

在Hot Chips上公布的另外两项技术旨在加快培训过程。SwarmX是扩展WSE2片上高带宽网络的硬件,因此它可以连接多达192台CS-2的1.63亿个AI优化核。构建计算机集群来训练大规模人工智能网络充满了困难,因为网络必须在许多处理器之间分割。Feldman说,结果往往不能很好地放大。也就是说,集群中计算机数量翻倍通常不会使训练速度翻倍。

Cerebras的MemoryX一种内存扩展技术,为WSE-2提供高达2.4PB的片外高性能存储,能保持媲美片上的性能。借助MemoryX,CS-2可以支持高达120万亿参数的模型。

Cerebras' MemoryX system delivers and manipulates weights for neural network training in the CS-2. The SwarmX network allows up to 192 CS-2s to work together on the same network.CEREBRAS

Feldman说:“我们终于解决了最紧迫的问题之一:如何使构建集群变得简单。”

因为一个WSE2可以保存一个网络中的所有激活,Cerebras可以想出一个方案,使计算机数量加倍确实可以使训练速度加倍。首先,代表神经网络的一整套激活被复制到每个CS-2(为了简单起见,让我们假设您只有两台AI计算机),然后相同的一组权重流到两台计算机。但是训练数据被分成两半,一半的数据发送到每个CS-2。使用一半的数据,计算梯度需要一半的时间。每个CS-2都会产生不同的梯度,但这些可以结合起来更新MemoryX中的权重。然后,新的重量流传输到CS-2,与之前一样,该过程重复进行,直到获得准确的网络,在这种情况下,只需一台计算机所需时间的一半。

Feldman表示,Cerebras已经在由“数千万个人工智能核心”组成的机器集群上完成了这项工作。同时他的人工智能内核数量也达到了85万个,打破首代WSE 处理器创造的世界纪录。无论是核心数还是片上内存容量均远高于迄今性能最强的GPU。此外,Cerebras还实现了192台CS-2 AI计算机近乎线性的扩展,从而打造出包含高达1.63亿个核心的计算集群。

Neural network weights flow to CS-2 computers linked by the SwarmX system. Training data is divided up and delivered to the CS-2s, which compute the backpropagation gradients that are combined and delivered to MemoryX CEREBRAS

Hot Chips报道的最后一项创新被称为Selectable Sparsity:一种动态稀疏选择技术。这是一种在不影响网络准确性的情况下减少训练中涉及的参数数量的方法。稀疏性在人工智能中是一个巨大的研究领域,但对于CS-2来说,它涉及的很多方面都是从不乘以零的。

Cerebras首席执行官兼联合创始人Andrew Feldman表示,这推动了行业的发展。根据该公司的说法,这四项创新的结合可帮助Cerebras计算机保持在神经网络的顶端,为研究和见解开辟广阔的新途径。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

Cerebras发布全球首个人类大脑规模的AI解决方案相关推荐

  1. 中国率先发布全球首份车路协同技术白皮书!清华百度联手,突破自动驾驶规模落地瓶颈...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 如果抛出这样一个问题:在自动驾驶领域,中国有啥与众不同? 不少业内人士都会给出这样一个答案:车路协同. 你若尚不了解这是怎样的技术,现在,一 ...

  2. 超越英伟达的,不会是另一款GPU?这家深圳公司发布全球首款数据流AI芯片

    2020年6月23日,鲲云科技在深圳举行产品发布会,发布全球首款数据流AI芯片CAISA,定位于高性能AI推理,已完成量产. 鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯 ...

  3. 腾讯发布全球首个面向移动端的VVC标准视频解码器,手机即可看4K超高清VVC视频...

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 腾讯发布全球首个面向移动端的H.266/VVC标准视频解码器,即其自研的O266移动端版本,手机可看4K超高清VVC视频.O266已成为世界 ...

  4. ibm量子计算机科学家,重磅!IBM发布全球首个独立商用量子计算机

    原标题:[重磅]IBM发布全球首个独立商用量子计算机 雷锋网消息,全球的科技巨头都在量子计算上投入了大量资源.值得关注的是,在2019 CES上,IBM宣布推出IBM Q System One,该系统 ...

  5. 华为发布全球首款 5G 汽车通讯硬件;今日头条系产品大裁员;三星手机推迟上市 | 极客头条...

    「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流. 快讯速知 华 ...

  6. 华为发布全球首个全性能端到端HSDPA商用方案

    华为发布全球首个全性能端到端HSDPA商用方案     " 手机上网可以比目前的家用ADSL快10倍? "日前,华为技术有限公司( " 华为 ")在北京举行的2 ...

  7. 联发科抢闸发布全球首款5G手机芯片,5G时代要重拾辉煌?

    5月29日,在台北电脑展Computex2019上,全球三大手机芯片企业之一的联发科正是发布了一款5G芯片,集成了它此前发布的5G调制解调器Helio M70,这也是全球第一款5G手机芯片,并称已向手 ...

  8. 李彦宏今晚将开启百度直播首秀;4G用户使用5G业务无需换卡;三星发布全球首款5G量子手机 | EA周报...

    EA周报 2020年5月15日 每个星期7分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事.掌握IT核心技术. 热点大事件 三年亏了近300亿,乐视网正式退市 5月14日下午,深交所正式发布公告乐视网 ...

  9. 30亿参数,华为云发布全球最大预训练模型,开启工业化AI开发新模式

    本文分享自华为云社区<HDC.Cloud 2021 | 华为云发布全球最大预训练模型,开启工业化AI开发新模式>,原文作者:技术火炬手 . 4月25日,华为云发布盘古系列超大规模预训练模型 ...

最新文章

  1. 《科学》:植入视觉!大脑植入物绕过眼睛可使盲人重见光明,人类治愈失明仅一步之遥...
  2. shell 补齐路径_bash shell:命令的文件名自动补全设置
  3. 杭电acm 2177 取(2堆)石子游戏(威佐夫博弈)
  4. Java异常详解及如何处理
  5. ajax juey,锋利的qjuey-ajax
  6. php 上传 blob,Laravel框架+Blob实现的多图上传功能示例
  7. DFS走迷宫问题(非最短路径)
  8. iOS小技巧---改变uisearchbar中的cancel按钮的文字、取消clearButton
  9. 用fileupload处理文件上传
  10. python学习之字符串函数用法
  11. TensorFlow 学习(十一)—— 正则(regularizer)
  12. 桌面高效便捷的多窗口调整管理工具
  13. 常用传感器讲解九--雨滴传感器
  14. 医疗实施-常用的英文简称
  15. 双方确认函_确认函格式范文
  16. grep的-A-B-选项详解(转)
  17. 母羊奶粉的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  18. 阿里云python自测答案_阿里云技能测试python初级中级高级
  19. bbp公式求圆周率、python_【并行计算】六种方法计算圆周率
  20. 网络空间开源威胁情报分析的人机优化策略研究

热门文章

  1. 迁移学习——Domain Adaptation
  2. 在Ubuntu上编写一个开机自启动的Python脚本
  3. ​谷歌大神Jeff Dean领衔,万字展望5大AI趋势
  4. 2021年秋季学期“大数据能力提升项目”证书办理及领取通知
  5. 谷歌、阿里们的杀手锏:3大领域,10大深度学习CTR模型演化图谱(附论文)
  6. 在原神里钓鱼,有人竟然用上了深度强化学习,还把它开源了
  7. 3月最新!ESI世界大学排名:371所内地高校上榜!
  8. 这个AI能帮你快速搜监控:文字定位关键画面,24小时录像10分钟处理完
  9. 任正非最新署名文章:不要因为美国打压而放弃全球化战略
  10. 复旦计算机学院徐老师,复旦大学信息科学与技术学院徐跃东副研究员到课题组访问交流...