视学算法

转载自公众号:机器之心

1 月 21 日,寒武纪思元 290 智能芯片及加速卡、玄思 1000 智能加速器在官网低调亮相,寒武纪表示该系列产品已实现规模化出货。去年,寒武纪招股书曾简单披露了一款训练芯片的 “彩蛋”,此后,寒武纪思元 290 芯片就一直被业界广泛关注并引发行业诸多猜想。如今,随着新一代训练产品线集中亮相,寒武纪略显“神秘” 的训练芯片及相应的业务布局逐渐清晰。

思元 290 智能芯片是寒武纪的首颗训练芯片,采用台积电 7nm 先进制程工艺,集成 460 亿个晶体管,支持 MLUv02 扩展架构,全面支持 AI 训练、推理或混合型人工智能计算加速任务。

寒武纪首颗训练芯片思元 290

寒武纪 MLU290-M5 智能加速卡搭载思元 290 智能芯片,采用开放加速模块 OAM 设计,具备 64 个 MLU Core,1.23TB/s 内存带宽以及全新 MLU-Link™多芯互联技术,在 350W 的最大散热功耗下提供 AI 算力高达 1024 TOPS(INT4)。

寒武纪玄思 1000 智能加速器,在 2U 机箱内集成 4 颗思元 290 智能芯片,高速本地闪存、Mellanox InfiniBand 网络,对外提供高速 MLU-Link™接口,打破智能芯片、服务器、POD 与集群的传统数据中心横向扩展架构,实现 AI 算力在计算中心级纵向扩展,是 AI 算力的高集成度平台。

寒武纪训练产品线采用自适应精度训练方案,面向互联网、金融、交通、能源、电力和制造等领域的复杂 AI 应用场景提供充裕算力,推动人工智能赋能产业升级。

思元 290 采用 MLUv02 扩展架构

MLUv02 架构为寒武纪 MLU200 全产品线共享,满足云、边、端三个场景的算力需求。云端训练对 AI 算力的要求更为苛刻,因此寒武纪对思元 290 的 MLUv02 架构进行了多项扩展,包括业内领先的 MLU-Link™多芯互联技术、高带宽 HBM2 内存、高速片上总线 NOC 以及新一代 PCIe 4.0 接口。相比寒武纪思元 270 芯片,思元 290 芯片实现峰值算力提升 4 倍、内存带宽提高 12 倍、芯片间通讯带宽提高 19 倍。新架构结合 7nm 制程,思元 290 可提供更优性能功耗比,以及多 MLU 系统的扩展能力。

MLU290 的 MLUv02 架构进行了多项扩展。

寒武纪 MLU-Link™ 多芯互联技术

近年来,AI 算法模型的复杂程度高速增长,对算力和训练速度提出了更高的要求。为了构建更强大的计算平台,多芯片间的互联技术已成为市场刚需。

寒武纪推出 MLU-Link™多芯互联技术,并首次搭载于寒武纪思元 290 芯片,每颗思元 290 的多芯互联总带宽高达 600GB/s。MLU-Link™具备丰富的互联特性,突破 PCIe 带宽和互联的瓶颈,相比思元 270 芯片通过 PCIe 并行的通讯方式,带宽提高 19 倍。MLU-Link™多芯互联技术支持多颗思元芯片无缝互联,支持跨系统互联,将纵向扩展能力整合到整个人工智能计算中心(AIDC),可以端到端加速大型 AI 模型训练。

思元 290 采用 MLU-Link™多芯互联技术进行互联,带宽、灵活性全面优于 PCIe 3.0。

思元 290 相较思元 270 并行通讯总带宽提升 19 倍。

寒武纪 vMLU 解决方案

不同场景下的 AI 训练对计算和存储的要求千差万别,如何提供更灵活也更稳定的服务,但同时让算力得到充分地利用,是 AIDC 面临的持续挑战。

寒武纪虚拟化技术 vMLU,支持在思元 290 上实现 4 个相互隔离的 AI 计算实例,每个实例独占计算、内存和编解码资源。实例之间的硬件资源互不干扰,即使在虚拟化环境下仍可保持 90% 以上的极高效率,帮助客户充分利用硬件资源。

思元 290 上实现 4 个相互隔离的 AI 计算实例。

vMLU 还可以帮助思元 290 芯片提供最佳的灵活性。通过热迁移技术,云管理员可将正在运行的 AI 负载及其应用程序移动到另外一台主机上,从而平衡整个 AIDC 的负载,并实现更好的容灾功能。

vMLU 热迁移

寒武纪首款训练智能加速卡 MLU290-M5

寒武纪 MLU290-M5 智能加速卡搭载了思元 290 智能芯片,采用开放加速模块 OAM 设计,具备 64 个 MLU Core,1.23TB/s 内存带宽以及全新 MLU-Link™多芯互联技术,在 350w 的最大散热功耗下提供 AI 算力高达 1024 TOPS(INT4)。

寒武纪智能加速卡 MLU290-M5

寒武纪智能加速卡 MLU290-M5 产品规格

寒武纪首款智能加速器玄思 1000

寒武纪首款智能加速器玄思 1000 包含 4 片思元 290 智能加速卡,最大 AI 算力超过 4100 万亿次每秒(4.1 PetaOPS INT4),一台玄思 1000 计算单元就足以替代一个小型传统超级计算中心。

玄思 1000 内置高带宽低延时的 MLU-Link™多芯互联技术,实现内部 4 颗思元 290 进行高速互联,同时打破服务器、紧耦合微集群(POD)与集群的传统数据中心横向扩展架构,将 AIDC 构建为节点、POD 乃至超大规模混合扩展架构(Hybrid Scale-out),实现 AI 算力计算中心级纵向扩展,满足高性能、高扩展性、灵活性、高鲁棒性的要求。

玄思 1000 是 AI 算力的高集成度平台,支持计算中心级纵向扩展。

重塑 AIDC 基础架构

算力、算法、数据是人工智能发展的三大要素,随着这几年 AI 的逐步发展,算力的核心地位更为凸显。人工智能技术落地于实际应用中需要芯片和硬件层面强大的算力支撑。算力已成为驱动 AI 产业化和产业 AI 化发展的关键要素。

下一代 AIDC 要求更多智能芯片无缝协同、并行运行的同时,还能保持高计算效率,从而提供超级巨大的算力,以应对超大规模训练的需要。寒武纪玄思 1000 智能加速器重新思考了未来 AIDC 的基础架构,在内部和外部采用统一的 MLU-Link™多芯互联技术进行通讯,使得思元 290 智能芯片的互联范围可以从单机扩展到 POD 乃至整个计算中心,重塑了基础架构。

 玄思 1000 支持 8 个 400G MLU-Link™和 2 个 200G 网络接口,总带宽高达 3600Gbps,是传统异构服务器的 2 倍。

玄思 1000 配置 8 个对外互联的 MLU-Link™接口,支持跨系统互联构建 MLU POD。标准配置支持 MLU POD 16、24、32。在 POD 内部,所有 290 芯片均可通过 MLU-Link™多芯互联技术进行通讯,在带宽和延时方面实现了突破;POD 外部通过玄思 1000 内置的网卡与其他系统进行通讯,实现了 AI 训练集群性能、扩展性和鲁棒性的协同提升。

POD 内所有思元芯片通过 MLU-Link™全互联。

除了标准配置的 POD 之外,在计算中心条件允许的前提下,通过 MLU-Link™多芯互联技术,可实现 1024 颗或更多思元 290 互联,不需要额外的网卡即可实现无缝加速。

寒武纪 Neuware™训练软件栈

寒武纪 Neuware™软件栈为思元 290 芯片提供完善的软件及应用生态,支持业界主流的 TensorFlow 和 PyTorch 等深度学习框架,用户不需要改变使用习惯,即可在思元 290 芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。其中,基于 Horovod 分布式训练框架与 MLU-Link™多芯互联技术相互配合,让思元 290 在单机多卡、多机多卡的场景下达到业界领先的训练加速比。寒武纪 Neuware™提供完善的开发工具包和社区支持,帮助用户在思元 290 芯片进行方便、灵活的定制开发及部署工作。配合强大的 BANG 智能编程语言及配套调试工具,用户可以为自定义的算法提供最佳性能调优。

寒武纪 Neuware™软件栈为思元 290 芯片提供完善的软件及应用生态。

2021 年 1 月,IDC 发布了《2020-2021 中国人工智能计算力发展评估报告》,该报告预计,中国人工智能市场规模在 2020 年达到 62.7 亿美元,2019-2024 年的复合增长率为 30.4%。IDC 的调研还发现,超过九成的企业正在使用或者计划在三年内使用人工智能,其中 74.5% 的企业期望在未来可以采取具备公用设施意义的人工智能基础设施。

随着 AI 算法突飞猛进的发展,越来越多的模型训练需要巨量的算力支撑才能快速有效地实施,算力是未来人工智能应用取得突破的决定性因素。

值得强调的是,在巨量的人工智能市场中,云服务市场表现更为突出。早前,2020 年 7 月,IDC 发布的另一份报告显示,2018 至 2024 年,中国 AI 云服务市场年复合增长率将达到 93.6%。而目前人工智能芯片仍处于成长期,未来三年,人工智能芯片市场将呈现多元化发展趋势。

寒武纪 290 产品线,有望在持续高速增长的人工智能市场尤其是云服务市场,抢占更多的市场份额,推动自身和 AI 行业的发展。据悉,寒武纪思元 290 芯片及加速卡已与部分硬件合作伙伴完成适配,并已实现规模化出货。

寒武纪最初布局终端 IP 场景,连续迭代推出让其声名鹊起的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列处理器,而后迅速布局云端智能芯片及加速卡系列产品思元 100 和思元 270,又于 2019 年推出基于思元 220 芯片的边缘智能加速卡。由此建立起覆盖云边端、训练、推理的完整产品矩阵,同时利用平台级基础系统软件 Cambricon Neuware,连接全线产品,由点及面,实现了“训推一体、端云融合”。寒武纪也成为目前国际上少数几家全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术的企业之一。

以寒武纪一年迭代推出一到两款新品的研发速度,我们有理由开始期待,寒武纪的下一个新品 “彩蛋” 了。

© THE END

转载请联系原公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

点个在看 paper不断!

寒武纪首颗AI训练芯片亮相相关推荐

  1. 【20210122期AI简报】保姆级深度学习环境配置指南、寒武纪首颗AI训练芯片亮相...

    导读:本期为 AI 简报 20210122 期,将为您带来 9 条相关新闻,新增论文推送,在文章底部,祝各位牛年大吉~ 本文一共 3700 字,通篇阅读结束需要 7~10 分钟 1. 保姆级教程:深度 ...

  2. 寒武纪重磅发布首款AI云芯片,陈天石要让端云结合占领10亿智能终端!

    今天,寒武纪科技放出两个重磅"炸弹": 寒武纪最新一代终端IP产品-Cambricon 1M 寒武纪最新一代云端AI芯片MLU100和板卡产品 寒武纪创始人陈天石介绍,这次最新发布 ...

  3. “含光”剑出,谁与争锋?阿里重磅发布首颗AI芯片含光800

    作者 | 夕颜.胡巍巍 编辑 | 唐小引 出品 | AI 科技大本营(ID:rgznai100) 9 月末的杭州气温适宜,宜出游,宜在湖边餐厅浅酌一杯清茶消闲.但在钱塘江水支流河畔的云栖小镇,却完全一 ...

  4. 英特尔挤爆牙膏:新AI训练芯片性能超A100,笔记本CPU首上16核5GHz

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI AI芯片这个高速增长的市场上,英伟达还是绝对的主导者,现阶段占据80%的市场份额. 有力的挑战者悄然出现: 英特尔推出新一代AI训练芯片Gaudi ...

  5. 全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

    乾明 编辑整理  量子位 报道 | 公众号 QbitAI AI芯片哪家强?现在,有直接的对比与参考了. 英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片. 并给出了各个 ...

  6. 极客日报:小鹏汽车回应非法收集人脸数据被罚10万;OPPO发布首颗自研芯片马里亚纳X;AMD 3DNow指令集被Linux淘汰

    一分钟速览新闻点! 阿里巴巴推出暖心计划:新增共27天时长带薪假 程序员编码自动给自己微信转账553笔 超21万元 OPPO发布首颗自研芯片马里亚纳X 挂机外挂软件破坏QQ正常运行,腾讯一审获赔52万 ...

  7. 焦点分析 | 平头哥的首颗 AI 芯片对阿里云来说意味着什么?

    文 | 王毓婵 编辑 | 苏建勋 "去年四五月份,阿里内部设立做芯片的目标并开始做 PR 的时候,我们实际上一行代码都还没写,压力非常大."谈及阿里首款 AI 芯片的诞生,阿里巴巴 ...

  8. 寒武纪发布新款AI训练卡MLU370-X8

    2022年3月21日,寒武纪正式发布新款训练加速卡MLU370-X8.MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link™多芯互联技术,主要面向训练任务,在业界应用广泛的YOLO ...

  9. 北斗三号频点_全球首颗北斗三号芯片正式发布

    科技汇 近日,全球首颗全面支持北斗三号民用导航信号体制的高精度基带芯片"天琴二代"正式发布,这枚由北京合众思壮科技股份有限公司(以下简称合众思壮)打造的最强北斗芯片,未来将作为北斗 ...

最新文章

  1. 如何利用clion编译ros工程,并方便在clion中调试?
  2. python中randn函数_numpy常用函数之randn
  3. 3.2 进阶-好多鱼
  4. python编程,外星人飞船
  5. java函数式编程_Java 函数式编程和 lambda 表达式详解
  6. 你真敢ZAO吗?解读换脸AI “细思极恐” 的用户协议
  7. MyEclipse下SVN的配置(下载及其配置)
  8. 减治法在查找算法中的应用(JAVA)--快速查找
  9. Incorporating Lexical Priors into Topic Models(即交互式主题模型的应用)论文阅读
  10. 前景检测算法(三)--帧差法
  11. PHP表单常用正则表达式(URL、HTTP、手机、邮箱等)
  12. [CareerCup] 12.6 Test an ATM 测试一个自动取款机
  13. 小程序云开发——列表页和详情页
  14. pythonudp通信程序_python中UDP编程实现通信
  15. 微服务网关Spring Cloud Gateway
  16. JAVA计算机毕业设计劳务外包管理系统(附源码、数据库)
  17. 教你如何创建一个免费的网站
  18. 爬取了 36141 条评论数据,解读 9.5 分的《海王》是否值得一看
  19. 少儿编程Scratch学习教程2--官方初学指南
  20. 第4版-信息系统项目管理师十大知识域及ITTO

热门文章

  1. UVA 10954 Add All
  2. 电子学会青少年编程等级考试案例:曲奇饼干
  3. 【青少年编程】【三级】青蛙捕虫
  4. 谢文睿:西瓜书 + 南瓜书 吃瓜系列 6. 神经网络
  5. 利用“队列”解决“窗口混乱”问题
  6. 从深度学习到深度森林方法(Python)
  7. 构建第三代人工智能核心能力,清华、阿里、RealAI等联合发布最新AI安全评估平台
  8. 如果不被吐槽,那我还是程序员吗
  9. Python多阶段框架实现虚拟试衣间,超逼真!
  10. 量子计算与AI“双拳”出击,他们锁定38种潜在抗疫药物