晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

美国一家芯片公司Cerebras推出了史上最大AI芯片,号称“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。

WSE将逻辑运算、通讯和存储器集成到单个硅片上,是一种专门用于深度学习的芯片。它创下了4项世界纪录:

  1. 晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。

  2. 芯片面积最大:尺寸约20厘米×23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。

  3. 片上缓存最大:包含18GB的片上SRAM存储器。

  4. 运算核心最多:包含40万个处理核心。

WSE由台积电代工,但是并没有使用当前最先进的7nm工艺,而是使用相对较老的16nm制程工艺制造。

台积电运营高级副总裁JK Wang表示:“我们对与Cerebras合作制造WSE非常满意,这是晶圆级开发的行业里程碑。”

虽然WSE制造成本可能很高,但Cerebras认为片上互连比构建和连接独立的内核速度更快、成本更低。

与其他芯片对比

WSE可以说是个庞然大物,一般的芯片都可以放在手掌心,而WSE面积比Mac的键盘还要大。官方在介绍这款芯片时,需要用双手捧着,和展示晶圆没什么两样。

WSE面积比英伟达最大的GPU核心V100还要大56倍,V100核心的尺寸为815平方毫米,包含211亿个晶体管。

最近AMD为数据中心提供的Epyc 2芯片,也是世界上最快的x86处理器,也只有320亿个晶体管,数量仅为WSE的30分之一。

英特尔最新的桌面级处理器i9-9900k有16MB缓存,英伟达RTX 2080Ti有5.5MB二级缓存,在WSE 18GB缓存面前也是小巫见大巫。RTX 2080Ti已经堪称功耗怪兽,TDP为250W,而WSE则需要15千瓦的供电。

性能参数

WSE包含40万个对AI优化的计算核心,称为稀疏线性代数核心(SLAC),它灵活、可编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。

SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核心针对神经网络计算基元进行了优化,因此它们可实现业界最佳利用率,通常是GPU的3~4倍。此外,WSE核心包括Cerebras发明的稀疏性收集技术,加速深度学习这类稀疏工作负载的计算性能。

零在深度学习计算中很普遍。通常要相乘的向量和矩阵中的大多数元素都是零。然而乘以零会浪费计算资源。

通常GPU和TPU被设计为永不遇到零的计算引擎,它们即使有零也会乘以每个元素。当深度学习中50-98%的数据为零时,大多数乘法都被浪费了。

由于Cerebras稀疏线性代数核心不会乘以零,所有零数据都会被滤除,并且可以在硬件中跳过,从而可以用着节约的资源去完成有用的工作。

内存是每个计算机体系结构的关键组件。更接近计算核心的缓存能带来更低的延迟和更好的数据移动效率。

高性能深度学习需要大量计算,并且频繁访问数据。这需要计算核心和存储器之间的紧密接近,但是在GPU中并非如此,大容量的显存并不在GPU核心上,而是外置的。

WSE片上的缓存达到了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比GPU快10,000倍。

Swarm是WSE上使用的处理器之间的通信结构,它只用传统通讯技术功耗的几分之一就实现了突破性的带宽和低延迟。

Swarm提供低延迟、高带宽的2D网格,可连接WSE上的所有40万个核心,带宽为每秒100 petabits。WSE通信能量成本远低于每比特1pJ,这比图形处理单元低近两个数量级。

面临的问题

为何其他芯片厂商不制造如此大尺寸的芯片呢?这是因为在制造晶圆的过程中不可避免会有一些杂质,这些杂质会导致芯片的故障。

通常的做法是将一片很大的晶圆切割成若干个小片,从中挑选出其中可用的部分,封装成芯片,而将报废部分丢弃。

而Cerebras的芯片已经和晶圆面积差不多大了,是在一个晶圆上切割出一块大的芯片,制造过程中不可避免会产生缺陷。

为了解决缺陷导致良率不高的问题,Cerebras在设计的芯片时候考虑了1~1.5%的冗余,添加了额外的核心,当某个核心出现问题时将其屏蔽不用,因此有杂质不会导致整个芯片报废。

Cerebras团队遇到的另外一个问题是芯片的刻蚀。今天的光刻设备仍然只能刻蚀面积较小的单个芯片。因此Cerebras与台积电合作发明了新技术,来处理具有万亿加晶体管芯片的刻蚀和通讯问题。

即使芯片制造成功,接下来还要面临三重挑战:热膨胀、封装和冷却。

Cerebras的芯片功率达15千瓦,与AI集群相当。给单个芯片提供巨大的功率,要考虑多方面的因素。

由于芯片在运行中会变得非常热,但是不同材料的热膨胀系数不同。这意味着将芯片与PCB的热膨胀系数不能差距太大,否则两者之间产生裂缝。

Cerebras在芯片上方安装了一块“冷却板”,使用多个垂直安装的水管直接冷却芯片。由于芯片太大而无法放入任何传统封装中,Cerebras还设计了结合了连接PCB和晶圆两者的定制连接器以及冷却装置。

关于Cerebras

Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席执行官)等人于2016年创立。后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

该公司在加州有194名员工,其中包括173名工程师,迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资。

参考资料:

https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/

https://www.pcworld.com/article/3432977/cerebras-systems-new-deep-learning-chip-is-as-big-as-your-keyboard-and-the-largest-ever.html

https://www.crunchbase.com/organization/cerebras-systems#section-overview

作者系网易新闻·网易号“各有态度”签约作者

活动推荐 | AI计算盛会限时免费报名

2019人工智能计算大会将于8月27日-28日在北京举办,通过量子位特邀渠道,即可获得原票价1099限时免费报名通道。识别下图二维码即可报名。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

史上最大AI芯片诞生:462平方厘米、40万核心、1.2万亿晶体管,创下4项世界纪录...相关推荐

  1. 百度Q2智能云增长强劲;据悉史上最大 AI 芯片诞生!中兴与奇瑞成立合资公司一起加快开发5G汽车……...

    关注并标星星CSDN云计算 极客头条:速递.最新.绝对有料.这里有企业新动.这里有业界要闻,打起十二分精神,紧跟fashion你可以的! 每周三次,打卡即read 更快.更全了解泛云圈精彩news g ...

  2. 史上最牛独立开发者:花20美元狂赚100万美元

    史上最牛独立开发者:花20美元狂赚100万美元 摘要:一般的独立开发者年平均收入在1万美金左右,但有一个人,开发的所有游戏,没有广告.没有应用内购买,痴迷一种跨平台开发工具Corona SDK,只花2 ...

  3. 史上最强春节红包战:互联网竞争缩影下的百亿争斗

    一个红包,一年互联网竞争缩影. 作者 | 尹子璇 本文经授权转自猎云网(ID: ilieyun) 2013年8月5日,微信支付正式上线. 彼时,竞争对手支付宝已经成为全球最大的移动支付公司.截止到20 ...

  4. lol服务器什么时候修复,《英雄联盟》史上最慢服务器修复,官方修复公告阅读超过100万...

    原标题:<英雄联盟>史上最慢服务器修复,官方修复公告阅读超过100万 <英雄联盟>昨天更新之后到现在还是登陆不了服务器,昨日英雄联盟在官网发布6月27日关于部分玩家登陆异常的公 ...

  5. AI一分钟 | 阿里NLP技术连破两项世界纪录,玉泉一号AI试验卫星明年发射

    一分钟AI: 阿里人工智能技术重大突破:连破中.英文语言处理两项世界纪录 内蒙古携手银河航天:明年发射玉泉一号AI试验卫星 百度计划2018年投资逾10家AI创业公司 重庆启动人工智能重大专项 总投入 ...

  6. 苹果史上最强芯片竟然是个“组装货”!iPhone SE涨价,13系列是真绿了

    金磊 明敏 博雯 发自 凹非寺 量子位 | 公众号 QbitAI 今年的苹果春季发布会,库克依旧线上"高能传送". 而在此前一波火热的"发布M2芯片"预测声中, ...

  7. 华为 AI 芯片诞生;马云重当中国首富;微软修复数据删除 Bug | 极客头条

    「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流. 快讯速知 华 ...

  8. 智能安防赛道上 国产AI芯片力挫群雄

    https://www.toutiao.com/a6691914650004488712/ [安防展览网 时事聚焦]面对打压,华为海思总裁何庭波5月17日凌晨发内部邮件称,多年前已经做出极限生存假设, ...

  9. 苹果史上最大人员收购案诞生:6亿美元交易,300名Dialog工程师加入

    雷锋网10月11日消息,据外媒报道,苹果公司今日完成对欧洲芯片制造商Dialog Semiconductor的部分股份的收购,涉及6亿美元资金,并吸纳了Dialog300名员工到旗下工作,以便在内部推 ...

最新文章

  1. 红帽OpenShift总经理谈容器技术需要关注的方向
  2. angular集成websocket_Angular + Websocket
  3. poi获取段落位置_Apache POI:从java中的word文档(docx)中提取段落和后续表格
  4. svn提示out of date的解决方法
  5. python学习04
  6. 某些小时后MySql连接自动掉线
  7. C语言判断系统是32位还是64位
  8. 西南科技大学城市学院计算机专科,西南科技大学城市学院官网
  9. 网络爬虫中的Unicode码解决[实例]
  10. 关于 linux 分区[转自ubuntu中文论坛]
  11. sqlserver_identity
  12. POJ3614 Sunscreen【贪心】
  13. 【爬虫系列之三】URLError异常处理以及Cookie的使用
  14. ppc+安装编译mysql_redhat7ppc安装
  15. 深信服技术认证之Openstack云平台使用入门
  16. SnowNLP自然语言处理模块具体用法
  17. 【0201】用户登录界面设计
  18. 用PS调出二次元风格水彩漫画风景图片
  19. gentoo的安装坑
  20. electron-rebuild

热门文章

  1. 让CoreData更简单些
  2. redis 学习笔记——redis集群
  3. MyBatis入门(七)---逆向工程
  4. 邮件服务之Sendmail
  5. 虚拟dom_虚拟DOM发展的前世与今身
  6. vba移动文件_Excel VBA 之 按需求移动、复制文件
  7. Kali Linux发布2020.1a版本
  8. iOS12系统应用发送邮件中的附件
  9. 分享Kali Linux 2016.2第47周镜像
  10. Xamarin iOS教程之添加和定制视图