今年二月,东数西算工程全面启动,在各界掀起了一股热潮,资本、媒体、行业,乃至民众都纷纷加入了话题讨论。

如今,算力不仅仅是数字经济时代的新生产力,更是成为与 “水、电、气” 并驾齐驱的国家级资源,是国民经济发展的重要基础。

01

AI 算力的
核心地位日益凸显

工信部《新型数据中心发展三年行动计划(2021-2023 年)》提出,到 2023 年底,全国总算力超过 200 EFLOPS,高性能算力占比达到 10%,国家枢纽节点算力规模占比超过 70%。[1] 随着人工智能应用的蓬勃兴起和大规模发展,对智能算力和超算算力的需求与日俱增。

由 IDC 浪潮信息和清华大学全球产业研究院最新联合发布的《2021-2022 全球计算力指数报告》指出,AI 计算能力反映一国最前沿的计算能力。综合评估 15 个国家来看,AI 算力支出占总算力支出从 2016 年的 9% 增加到 12%,预计到 2025 年将达到 25%。中国 AI 算力发展领跑全球,AI 服务器支出规模同比大幅增长 44.5%,并首次超过美国位列全球第一。在 15 个国家 AI 算力支出的增长中,近 60% 来自中国。[2]

02

云原生成为
主流 AI 计算框架最佳拍档

随着 AI 应用在各个行业的不断深入,数据规模、算法复杂度、企业业务场景多样性都呈几何倍数增加,这带来了一系列问题:突飞猛进的机器学习算法和日益捉襟见肘的 AI 算力引发供需不平衡,如雨后春笋般涌现的 xPU、ASIC、FPGA 等异构 AI 算力芯片带来算力基础设施异构化挑战,各种层出不穷的深度学习框架安装部署相对复杂对算力资源消耗巨大,服务器规模激增但资源利用率低,导致投入产出比低、运维成本高,桎梏了企业 AI 转型进程。

悄然来袭的云原生浪潮,为上述难题的解决带来了希望的曙光。「DaoCloud 道客」在云原生领域深耕多年,针对 AI 场景,提出了「超道云原生人工智能算力平台」解决方案,实现了异构算力基础设施统一纳管、容器标准化的算力池化调度、AI 模型的开发运营一体化、AI 应用的云原生编排及企业级多租户管理等,可满足企业 4 个层次的需求:

  1. 打造弹性扩展、高效统一的算力基础设施:统一管控和调度分散的、异构的计算资源,进行动态资源分配,负载均衡,提升算力基础设施整体利用率,降低各种算力的使用门槛。

  2. 适配多种算法模型与主流框架:内置优化多种主流深度学习框架和组件,基于云原生的模式实现了分布式训练框架的运行调度,简化配置与操作;还支持对接算法 ISV (Independent Software Vendors,独立软件开发商) 持续扩展平台能力。

  3. 实现 AI 模型端到端全生命周期管理,加速人工智能应用创新:提供从数据准备、模型构建、模型训练、模型调优及模型运营的 AI 模型全生命周期管理能力,大幅缩短企业 AI 模型创作和更新周期,提升企业 AI 生产力。结合底层平台提供的云原生应用编排调度能力,加速 AI 算法能力支撑企业实际业务场景的进程。

  4. 企业级多租户管理:平台内置多租户管理,按需适配企业组织管理要求,实现多团队共享算力资源,同时支持多维度的资源监控与告警,结合可视化看板能力,轻松实现运营管理。

超道云原生人工智能算力平台,提供多元异构算力服务基于异构算力之上的 AI 模型全生命周期管理服务。一方面通过平台可以更方便、更快捷地获取多元算力,另一方面也加速了人工智能科学家们,从算法研发到模型发布的效率,提升企业 AI 的整体生产力

此外,基于数字原生的底座平台同时提供了对计算、存储、网络等基础资源管理和调度的完整解决方案,提升算力利用率

平台提供 AI 创新生态开放能力,除支持内置 AI 服务以 API 方式对外开放,同时还可集成 ISV 人工智能开发组件,提供第三方算法及模型服务,并与 ISV 形成联合方案。致力于为终端客户提供全链条的场景化服务,覆盖工业、金融、医疗、安防和教育等多种行业场景

「超道云原生人工智能算力平台」解决方案架构示意图

该平台具有生态兼容、高效稳定、弹性灵活、应用无感迁移、跨云管理等特性,并且用户可根据自身需求定制应用服务,在平台上部署即可运行,有效降低人工智能开发、应用的难度,加快产品或服务的上线速度,减少管理开销,增强企业的竞争力。

03

GPU 资源池化云服务
提升 AI 算力效能

为进一步提升算力利用率,「DaoCloud 道客」联合趋动科技发布了 GPU 资源池化云服务联合解决方案。该方案基于云原生架构全面整合虚拟化、网络、存储、安全等能力,实现了 GPU 资源池化、动态伸缩和灵活调度,在企业级 Kubernetes 平台「DaoCloud Enterprise (DCE)」上进行 GPU 资源的细粒度管理和监控,让企业内的 AI 用户可共享数据中心内所有服务器上的 GPU 算力,不必关注底层资源的具体细节,助力企业 AI 应用开发敏捷化和高效化。

同时借助云原生天然的分布式、弹性扩展和轻量虚拟化能力,该方案能够简化异构算力资源的管理,屏蔽硬件基础设施的复杂性,实现池化和弹性算力资源供给,有效缓解计算压力,大幅提升 AI 应用的业务效率并避免供应商锁定,广泛服务于深度学习、模型训练、科学计算、图形图像处理等人工智能场景。

「DaoCloud 道客」&趋动科技 GPU 资源池化云服务联合解决方案示意图

未来,「DaoCloud 道客」将继续深化云原生与 AI 在算力基础设施层面的研发及探索,持续打造和优化云原生算力引擎,为企业、开发者提供灵活、高性能以及易用的 AI 应用基础环境,使他们更加专注于AI 应用、模型及算法调优等业务领域本身,加快人工智能应用步伐。

东数西算热潮下,云原生如何发挥 AI 算力澎湃动能?相关推荐

  1. 大话“东数西算”(下)

    算力,就像水力和电力一样,正在成为一种新的能源. 算力行者,就是见证算力成为新能源的过程. 我们相信,计算可以打开 新世界的大门. 中篇的<大话"东数西算">里,介绍了 ...

  2. 2021年“东数西算”大背景下我国IDC产业发展现状与前景展望分析「图」

    一."东数西算"的意义 "东数西算"简单来看,即将东部海量数据,通过全国一体化的算力网络输送到西部,解决对东西部对数据处理需求和供给的不平衡问题.背后深层次来看 ...

  3. “东数西算”工程下如何建设新型算力网络

    "东数西算"工程正式全面启动,将数字经济推向了新高度.数字经济时代,数据和算力已成为像水.电一样重要的生产要素.数字经济蓬勃发展之下是全社会对算力的爆发式需求.算力需要网络承载巨量 ...

  4. 护航“东数西算”工程 | 安全狗云原生安全能力亮相2022南京软博会

    11月23日,2022中国(南京)国际软件产品和信息服务交易博览会(简称"2022南京软博会")下的"东数西算"助力数字经济协同发展论坛在南京国际博览中心顺利举 ...

  5. 科技云报道:东数西算不止于“算”,更需“新存储”

    科技云报道原创. 作为数字时代的一次大变革,"东数西算"已然成为了一个"家喻户晓"的议题. 目前,我国数据量占全球18%,算力供需失衡问题亟待解决.正因如此,国 ...

  6. 中企通信如何下好“东数西算”这盘棋?

    关注云报 洞察深一度 "东数西算"无疑是国家正在布局谋篇的一盘大棋,涉及产业创新.算力提升.数据调度.网络传输.能源管理.人才流动等诸多方面,并且也是加快建设全国统一大市场.构建国 ...

  7. 东数西算下,液冷数据中心为何日趋重要?

    东数西算 | 超算平台 | 冷板式液冷 深度学习 | 数据中心 | 高性能计算 在"双碳"目标和"东数西算"工程的推动下,液冷.深度学习.高性能计算.多样化计算 ...

  8. 超算云如何登上“东数西算”的快车

    关注云报 洞察深一度 "东数西算"工程正式启动后,数据中心行业迎来史上最严"禁令":除京津冀.长三角.粤港澳大湾区.成渝.内蒙古.贵州.甘肃.宁夏8个国家算力枢 ...

  9. 在宇宙的眼眸下,如何正确地关心东数西算?

    掩体纪元 67 年,宇宙,歌者文明. "我需要一块二向箔,清理用."一位歌者敏锐地从数据中发现了一种可能影响宇宙的文明,它决定,扔出二向箔,让遥远的太阳系从三维跌落到二维. 这是& ...

最新文章

  1. 在Word中调用外部程序两法
  2. 打开AD组策略编辑器提示“strings区段项目太长被截断”的解决
  3. python绘制随机数直方图-python plotly绘制直方图实例详解
  4. python怎么自动生成测试报告_python生成接口自动化测试报告模版
  5. linux下普通用户更改密码原理(S权限)、SetUID
  6. 计算机python技术基础知识点_python基础--相关计算机基础知识
  7. java测试不成功_java – 测试@NotNull时集成测试失败
  8. 模板—tarjan求割边
  9. C语言学习笔记---abs()函数和div()函数
  10. Redis随项目启动或CRUD进行缓存数据
  11. 接口文档神器---Swagger注解使用与实例
  12. mysql全称量词_数据库基础lt;三)标准语言SQL-一团网
  13. springMVC 生成Excel和PDF
  14. 图片标签及以图搜图场景应用
  15. Android 炫酷自定义 View - 剑气加载
  16. 基于c语言的哈希表电话簿
  17. 海康java版本SDK中jna.jar的说明
  18. t480s控制面板打开触摸板_今年买的thinkpad T480S,但是使用感觉还不如5年前买的S3 touch速度快,是什么原因?...
  19. MTBF平均故障间隔时间
  20. PrintWriter的 write() 与 print() 的区别

热门文章

  1. UiPath手把手教程
  2. 【项目2 - 建立链栈算法库】
  3. 华为云ssl证书申请和安装
  4. IEC 61000-3-2 2018 电磁兼容性(EMC) - 第3-2部分:限值 - 谐波电流发射限值(设备输入电流≤16A/相) 标准更新
  5. 领域驱动设计实践:还是图书馆借书的例子
  6. default-scheduler 0/1 nodes are available: 1 node(s) had taint {node.kubernetes.io/disk-pressure: }
  7. Vue 篇 解决ELement UI 中表单验证(多层Object嵌套)
  8. CodeForces 1041D Glider 枚举+二分
  9. textview 实现文字拼接 样式
  10. 点读机一般具备以下几大特点