8月30日,阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为各类科研和智能企业机构提供高效、开放、绿色的智能计算服务。

其中,在AI开发层,阿里灵杰大数据AI一体化平台提供全流程的开发和运维服务。尤其在模型训练和推理性能、大数据与AI工程能力方面,凭借技术领先性和丰富落地实践,成为区别传统AI集群的独特优势所在。

本文基于阿里云智能AI产品总监黄博远在阿里云飞天智算平台发布会上《AI Power · 智能新前沿》的演讲梳理成文,将围绕大模型应用趋势、AI工程化、软硬件结合的智能计算应用案例等话题作详细介绍。

演讲嘉宾|黄博远

本文来源阿里云飞天智算平台发布会演讲

如今,人工智能(AI)在各行各业里得到非常多的应用,并且开始探索生物学、化学、物理学等基础科学的知识,一如此前AI学习理解图像、声音和语言。

AI依赖于计算,同时今天AI也反过来去提升传统意义上的科学计算的效率。无论是新药物研发、新材料生成、还是自动驾驶,我们相信都将迎来新的革命,这些都是十多年前认为遥不可及的。

两股新动力将人工智能应用推到新高度

我们认为有两股新动力将把人工智能的应用推向新的高度:具备泛化能力的预训练模型和数据中心级的智能算力。

1.  具备泛化能力的预训练模型

相信在座各位经常听到一些相关报道,比如“哪项AI能力超越了人类的认知水平”之类。其实这仅仅揭示了AI和预训练大模型能力的冰山一角。预训练大模型,尤其是多模态大模型,有三个核心优势。

它们具备非常好的“泛化能力”,因为训练过程使用到大量模态数据,因此具备通用性。与人类感受和认识世界的过程类似,今天在座的各位耳朵里听着我们演讲的内容,眼睛在看着屏幕,有时还会用手机或电脑查询相关资料,这个过程就是多模态认知理解的过程。一旦具备多模态的学习能力,模型认知水平就会变强,能在更多行业得到高效利用。

其次,从参与者视角来看,预训练大模型能大幅降低制造高质量模型的门槛。回想一下,从零开始制造一个生产级的大模型需要怎样的投入?海量数据采集、数据工程、神经网络、模型训练……整套流程走完,出来的模型效果可能并不好,还需要无数次调整。而今天预训练大模型给我们提供了一个巨人的肩膀。

大家可以站在这个巨人肩膀上,依托大模型,引入特定领域的“小数据”,就能获得一个具备领域知识且效果非常好的模型。这就好比,如果我们找一个数学家帮忙算账,他只需要了解基本的算账规则,很快就能算完。但如果找一个没学过数学的人来算,可能就遥遥无期了。

第三个特点,从整个产业的角度讲,基于大模型的AI研发范式是更加经济环保的。当我们集中力量训练出一系列大模型,让产业内的从业者基于大模型在自己的领域做更精细化的训练,这样一些通用的计算就不需要被反反复复执行,我们就能节省非常多资源。这就像热能厂出现以后,大家都不需要自己在家生炉子了,在家可以直接吹到暖气,如果温度不合适就自己控制阀门获得喜欢的温度。所以我们说,大模型的模式是面向未来的AI研发范式。

2.  数据中心级的智能算力

不仅仅是预训练大模型,当下很多人工智能模型的生成过程是非常复杂的。算力依然是决定AI能力上限的关键因素。数据中心级的智能算力,通过软硬一体的联合优化,能把我们从最底层硬件,到网络、系统、框架、再到最上边的算法,层层联合优化,形成极致的算力优化效果,使得计算速度得到接近百万倍的提升。可以说,超级的智能算力是人工智能越来越强大的基础设施,是推动各行各业走向智能化的驱动引擎。

如何让每个AI创新者拥有这些能力?

刚才介绍了两种驱动力,可是我们每一位开发者能够拥有这样的驱动力吗?其实横亘在开发者、创新者和刚才的两种驱动力之间的,还有很多的障碍。

首先是算力消耗。以我们耳熟能详的语言类大模型GPT-3为例,高达1750亿个参数,训练这样的模型消耗的资源,相当于开一辆汽车,从地球开到月球往返一次的能耗费用。这个例子还只计算了资源的部分,其实这辆“车”本身也造价不菲,大家都知道异构计算的底层硬件非常昂贵,一般的开发者创新者,很难用得起这样的资源。

人才和工具链也是挑战。在AI整个创新过程当中,人才也是非常非常重要的一种资源。在这个领域,我们既需要具备一定的领域知识,还要懂AI、还要懂数据技术,这类人才现在无疑是非常宝贵的。此外,我们曾经针对AI开发做过一个调研,如果完整走一遍AI研发端到端的流程,大概需要使用到多少工具或者产品?结果非常惊人,至少12种。可想而知,整个工作链有多复杂。

AI 工程化最佳实践:基于阿里云训练出全球最大预训练模型M6

刚才讲到达摩院的预训练大模型M6。其实M6的生产过程本身就是解决上述挑战的典型例子。M6的参数规模达到了10万亿,是全球最大的预训练模型。与传统AI模型相比,大模型拥有成百上千倍的神经原数量,经常表现出像人类一样的举一反三的学习能力。因此,大模型普遍被认为是未来的基础模型,会成为下一代AI基础设施。下面我们看看这个大模型到底怎么来的?

首先来看资源问题。M6基于阿里云高效的云原生机器学习平台PAI进行训练。PAI依托丰富的场景,包括服务阿里巴巴内部和阿里云上客户的诸多场景,锤炼了超大规模分布式训练的最佳实践,并通过PAI-EPL分布式训练框架对外提供训练加速能力。PAI-EPL框架具备丰富的分布式训练架构,包括数据并行,模型并行,流水并行等。最关键的,AI模型训练是一个反复迭代的计算过程,PAI-EPL框架可以在迭代过程当中,自动地帮助使用者寻找合适的并行方式,在不同阶段对症下药。这样能够带来接近线性的分布式加速能力,大幅降低超大规模模型的训练成本。

如果说训练是一次性的或者周期性的,那么推理可能每时每刻都在发生,当模型真正投入到日常应用中去,就离不开推理。PAI-Blade可以提供一站式通用推理优化工具。简单讲,它通过模型压缩算法,把模型变小再变小之后,模型的承载效率会变高。但是这个变小的过程,也非常有技术含量。模型在变小的过程中,效果不能变差,准确度不能有损耗。

此外我们结合阿里巴巴自研的AI编译器,自动针对目标环境去进行优化。目标环境可能是各种各样的异构硬件资源,AI编译器可以把整个效率推升到极致,底层支持CPU、GPU、以及含光、海光等硬件。作为通用的推理优化工具,除了性能上有提升,更关键的是易用性,我们希望通过PAI-Blade工具,能将优化过程对用户透明,尽量避免用户修改模型代码,提升便利性。

大数据AI一体化平台:支撑AI研发全生命周期

这里我们解决了机器资源的问题、训练性能和推理性能问题,下一个问题是如何提升数据科学家的工作效率。阿里云建立了大数据AI一体化平台,一站式支撑整个AI研发的生命周期。
今天,随着AI技术的增强,AI研发效率的问题变得越来越复杂和严峻。放在很多年前,我们用AI解决哪些问题?最典型的就是文字识别,解决这类问题只涉及几种数据,一堆照片、拍下来的手写文字、以及两者间的对应关系,齐了。可以说在那个时代,大家很难感受到对大数据+AI一体化的平台的需求。现在呢,我们在用AI解决智能搜索、智能推荐、自动驾驶、科学计算、智能交互等等问题,而这些场景需要这样哪些数据呢?需要把数据仓库当中代表着认知智能的结构化数据和数据湖里边代表着这些感知智能的(例如视觉、语音等等)数据,两类数据综合在一起使用,才能解决最终的业务问题,整个过程十分复杂。

我们通过阿里灵杰大数据AI平台,支撑了从数据标注、数据开发、到模型设计、训练、推理、部署整套的工作流。AI研发本身是一个持续迭代的过程,所以用户还需要对效果进行监控,一旦发现效果不理想,还要回来重新再训练这个模型。这一整套流程都可以用阿里灵杰大数据AI一体化平台解决,最大程度降低了从开发到生产,到运维的复杂度和成本。

链接庞大的AI开放生态,持续创造价值

在强大的PaaS平台的有力支撑下,阿里云构建了丰富的AI开放生态。基于我们最基础的语音、视觉、NLP等基础技术,提供了上百种SaaS化AI服务,这些服务非常简单易用。我们在云上的AI服务,每天调用次数超过一万亿次,我们为广大用户提供了稳定和可靠的AI服务体系。

此外,阿里云整体服务了超过100万AI开发者。AI开发者可以在我们的平台上获得开箱即用的技术服务、最佳实践和学习资源。

最后,阿里云作为中国云计算的领导者,我们深入到各行各业,积累了大量的客户以及应用需求,为我们的开放生态中的所有参与者,提供了最直接的业务支持,形成了生态与企业需求之间的良性互动。

AI for Science 是近期非常火的领域,而 AI和智能计算在生物医药等领域正在发挥它的作用,而且有非常喜人的成果。深势科技通过多尺度建模结合机器学习的创新方法,在确保模拟精度的同时,引入深度学习算法处理大规模数据计算问题。

在这个过程中阿里云通过PAI平台自研AI编译器利用协同优化、编排优化等手段,将深势的机器学习训练效率提升5倍以上,帮助加速了新材料和新药物研发的进程。

我们将持续通过全栈AI服务、高效的机器学习平台、以及门槛更低更易用的模型服务,助力广大开发者。驱动AI理想落进现实,为创新者加速,为开拓者铺路。

阿里灵杰融合智能算力,全栈AI服务为探索者铺路相关推荐

  1. 阿里灵杰:与开发者一起推动AI创新落地

    对于人工智能领域而言,"AIGC"无疑是贯穿2022年的热点.12月16日,Science杂志发布了2022年度科学十大突破,AIGC赫然在列.以文生图,对话机器人等AI创新应用的 ...

  2. 贾扬清演讲实录:一个AI开发者的奇幻漂流丨2021阿里灵杰AI工程化峰会

    演讲人:贾扬清 演讲主题:一个AI开发者的奇幻漂流 活动:2021阿里灵杰AI工程化峰会(2012年12月3日) 对于绝大多数人来说,这一波AI浪潮兴许是从深度学习开始的. 2011年谷歌发表的一篇文 ...

  3. 阿里云混合云重磅发布 全栈建云智能管云极致用云

    6月9日, 2020阿里云峰会在云端召开,阿里云混合云产品总监谢宁出席峰会并发布阿里云混合云战略:全栈建云.智能管云.极致用云.阿里云混合云是国内首个大规模成熟商用的原生混合云,提供稳定.安全.弹性. ...

  4. 阿里灵杰:AI工程化助力产业数字升级

    对于人工智能领域而言,"工程化"无疑是贯穿2021全年的热点.Gartner.德勤.中国信通院等权威研究机构先后在年度趋势报告中指出其必要性,与此同时,AI产业化的曲折探索也时刻提 ...

  5. 全栈AI火力全开,“云智一体”为开发者凿开产业智能通衢

    大家有没有发现一个现象,上云这场时代浪潮中,虽然载体是云,但决定了方向和路径的却是AI. 最明显的,以AI能力著称的谷歌云.百度智能云等成为国内外崛起速度极快的两朵云.吸引AI开发者.增强AI能力也成 ...

  6. 联万物,+智能,为行业,华为云升级OceanConnect IoT全栈云服务

    [中国,上海,2019年9月19日] 9月18日,在HUAWEI CONNECT 2019期间,华为云CTO张宇昕在华为云峰会上升级OceanConnect IoT全栈云服务,发布包括端.边.管.云. ...

  7. 聚焦 | 阿里灵杰AI工程化峰会来了

    简介:半个多世纪以来,人工智能(Artificial Intelligence,以下简称AI)技术与产业经历了高速增长,也逐渐回归理性.阿里云始终坚信,工程化是推动AI从实验室落地到产业中的必经之路. ...

  8. AI云时代大幕开启,华为全栈AI产品线将迎春天

    最近笔者在接受<证券日报>有关人工智能产业发展的采访时(http://m.zqrb.cn/stock/hangyeyanjiu/2020-10-28/A1603816650302.html ...

  9. 从神经网络到全栈AI开发,原来AI还能这么用

    2006年起,伴随着深度学习技术的突破,人工智能开始以前所未有的速度在全球范围内快速发展,中国的人工智能技术与实际应用,更是真正走在了世界的前列.现在,人工智能应用已经在工业的各个领域落地结果,也正在 ...

最新文章

  1. Scrapy_splash组件的使用
  2. Struts ActionForm简单理解
  3. DEV GridView嵌套
  4. Hadoop 2.5.1集群安装配置
  5. Python学习笔记,爬取笔趣阁小说
  6. Redis中数据结构和编码详细图解(应用场景及优缺点)
  7. smoothstep
  8. 为WebBrowser的WEB页的Document注册事件的问题
  9. linux下的进程信号,信号注册、处理方式、注销,信号阻塞及volatile代码优化
  10. 一个简单混合协议通讯列子,物联网和互联网通讯。
  11. 存储过程游标注意事项——表需要使用别名,如红色字体
  12. 更改select里面的值
  13. pfSense添加子网的几种方式
  14. 计蒜客——双重回文数
  15. [渝粤教育] 中国地质大学 电路理论(新) 复习题
  16. C语言实例(六)创建各类三角形
  17. 尼古拉斯·凯奇:名门传奇
  18. 直播APP软件开发,直播系统开发的技术架构揭秘
  19. python批量处理word格式_用python批量处理word文档
  20. Jzoj5605 Zkb

热门文章

  1. ERP系统实施与企业内部控制管理实践
  2. C 水仙花数 一个3位数,其中各位数字立方和等于该数本身
  3. 【T-SQL】一、数据库的创建与管理
  4. 195号段是哪个运营商,195号段是正规移动卡吗?
  5. 反射 Reflect Class 基础 API MD
  6. 智能穿戴新方向华米科技血压手表相当于A类血压计申请标准
  7. 怎么选购海外服务器?
  8. C#中的方括号[](特性、属性)
  9. 神经网络和人工智能原理,人工神经网络基本原理
  10. USNews:2019世界大学排行榜