点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1月11日,达摩院发布《达摩院2023十大科技趋势》,生成式AI、多模态预训练大模型等技术入选。

达摩院认为,AI正在加速奔向通用人工智能。生成式AI将迎来应用大爆发,极大推动数字化内容的生产与创造;多模态预训练大模型将实现图像、文本、音频等的统一知识表示,成为人工智能基础设施。人工智能诞生数十年,人类对“通用AI”的想象从未如此具体。

趋势解读一:生成式AI

生成式AI使用各种机器学习算法,从数据中学习要素,使机器能够创建全新的数字视频、图像、文本、音频或代码等内容。它创建出的内容与训练数据保持相似,而非复制。它的发展得益于近年来大模型在基础研究尤其是深度学习上的突破,真实数据的积累和计算成本的下降。在过去的这一年,生成式AI将人工智能的价值聚焦到“创造”二字,这标志着人工智能开始具备定义和呈现新事物的能力。过去一年,生成式AI的进展主要体现在如下领域:

图像生成领域的进展来自扩散模型(Diffusion model)的应用,以DALL·E2、Stable Diffusion为代表。扩散模型是一种从噪声中生成图像的深度学习技术。扩散模型技术的背后,是更精准理解人类语义的预训练模型、以及文本与图像统一表示模型(CLIP)的支撑。它的出现,让图像生成变得更具想象力。

自然语言处理(NLP)领域的进展来自于基于GPT3.5的ChatGPT。这是一种基于互联网可用数据训练的文本生成深度学习模型,用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。得益于文本和代码相结合的预训练大模型的发展,ChatGPT引入了人工标注数据和强化学习(RLHF)来进行持续训练和优化。加入强化学习后,大模型能够理解人类的指令以及背后的含义,根据人类反馈来判断答案的质量,给出可解释的答案,并对于不合适的问题给出合理的回复,形成一个可迭代反馈的闭环。

代码生成领域的进展来自代码生成系统AlphaCode和Copilot。2022年2月,Deepmind推出了AlphaCode。它是一个可以自主编程的系统,在Codeforces举办的编程竞赛中,超过了47%的人类工程师。这标志着AI代码生成系统,首次在编程竞赛中,达到了具有竞争力的水平。基于开源代码训练的Copilot开始商业化,作为订阅服务提供给开发者,用户可以通过使用Copilot自动补全代码。Copilot作为一个基于大型语言模型的系统,尽管在多数情况下仍需要人工二次修正,但在简单、重复性的代码生成上,将帮助开发者提升工作效率,并给IDE(集成开发环境)行业带来重大影响。

随着内容创造的爆发式增长,如何做到内容在质量和语义上的可控,成为可控式生成,将是生成式AI面临的主要挑战。在产业化方面,降成本仍是关键挑战。只有像ChatGPT这样的大模型训练成本和推理成本足够低,才有可能规模化推广。此外,数据的安全可控、创作版权和信任问题也需要随着产业化加快逐一解决。

未来三年,生成式AI将步入技术产品化的快车道,在商业模式上会有更多探索,产业生态也会随着应用的普及逐步完善。届时,生成式AI的内容创造能力将达到人类水平。拥有数据、计算能力、产品化经验的大型科技公司将成为生成式AI落地的主要参与者。基于生成模型的计算基础设施和平台会逐步发展起来,模型变成随手可得的服务,客户不需要部署和运行生成式模型的专业技能就可以使用。生成模型将在交互能力、安全可信、认知智能上取得显著进展,以辅助人类完成各类创造性工作。

趋势解读二:多模态预训练大模型

基于深度学习的多模态预训练是认知智能快速发展的重要推动力。构建多场景、多任务的预训练大模型将加速模型标准化进程,为人工智能模型成为基础设施创造条件。深度学习模型的不断完善、互联网海量真实数据的积累和生成式预训练的广泛应用,使得人工智能模型在自然语言理解、语音处理、计算机视觉等领域地交叉应用取得显著进展。

2022年,技术上的突出进展来自于BEiT-3多模态基础模型,该模型在视觉-语言任务处理上具备出色表现,包括视觉问答、图片描述生成和跨模态检索等。BEiT-3通过统一的模型框架和骨干网络(backbone)建模,能够更加轻松地完成多模态编码和处理不同的下游任务。另一方面,CLIP(ContrastiveLanguage-ImagePre-training)的广泛应用也促进了多模态模型的技术发展。CLIP作为基于对比学习的预训练模型,负责从文本特征映射到图像特征,能够指导GAN或扩散模型(Diffusion Model)生成图像。在文生图领域,Stable Diffusion也使用了CLIP,它能够通过文本提示调整模型,并借助扩散模型改善图像质量。与此同时,开源极大的促进了多模态的融合和预训练模型的发展。通过开源来降低模型使用门槛,将大模型从一种新兴的AI技术转变为稳健的基础设施,已成为许多大模型开发者的共识。

多模态预训练模型的发展将重塑人工智能商业模式,并为人们的生产生活方式带来积极影响。对个人而言,类似CLIP的多模态模型,将使更多非技术出身的人能够表达自己的创造力,无需再借助工具和编程专业能力。对企业来说,多模态预训练模型将成为企业生产效率提升的关键。商业模式上,具备大数据、算力资源和模型开发能力的科技企业,将会成为模型服务的提供方,帮助企业将基础模型的能力与生产流程融合起来,实现效率和成本最优。

认知智能的发展,不会局限在文本或图像等单一的模态上。未来,如何针对不同模态建立更高效的模型架构和统一的骨干网络,使得大模型能够广泛地支持各种下游任务将成为主要挑战。在此基础上,更多的挑战来自于挖掘不同模态(如图像-文本,文本-自然语言,视频-文本)数据间的相关信息,并巧妙的设计预训练任务,让模型更好的捕捉不同模态信息之间的关联。

语音、视觉和多模态预训练模型将加速人工智能向通用基础模型方向演进。在这个演进过程中,深度学习与强化学习相互促进发展,融合大量行业知识,模型将具备在不断变化的环境中快速适应的灵活性。建立统一的、跨场景、多任务的多模态基础模型会成为人工智能发展的主流趋势之一。随着技术的不断成熟,大模型在开发成本、易用性、开发周期、性能上会更具优势,给产品化和商业化带来更多可能性。

内容来源:达摩院

《达摩院2023十大科技趋势》报告PDF地址:

https://files.alicdn.com/tpsservice/9b8b05280c05294f158bdb0dee61f78b.pdf

文章来源:学术头条

往期精彩文章推荐

记得关注我们呀!每天都有新知识!

关于AI TIME

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了900多位海内外讲者,举办了逾450场活动,超500万人次观看。

我知道你

在看

~

点击 阅读原文 解锁更多精彩!

《达摩院2023十大科技趋势》发布,生成式AI、多模态预训练大模型入选相关推荐

  1. 达摩院2022年十大科技趋势发布:AI for Science刚开始,大模型进入冷静期

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2022年,科技圈哪些技术走向值得关注? 今天,达摩院发布了年度十大科技趋势,涵盖人工智能.芯片制造.隐私计算.机器人.云计算.星地计算等多 ...

  2. 达摩院 2023 十大科技趋势发布

    达摩院 2023 十大科技趋势发布,生成式 AI.Chiplet 模块化设计封装.全新云计算体系架构等技术入选. 达摩院发布十大科技趋势 达摩院认为,全球科技日趋显现出交叉融合发展的新态势,尤其在信息 ...

  3. 达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

    杨净 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,达摩院十大科技趋势榜单发布. 本次包含了AI.芯片.云计算等基础技术领域,既有引发全球投资浪潮的生成式AI,也有在规模化应用前夜的存算一体. ...

  4. 达摩院2022十大科技趋势发布:人工智能将催生科研新范

    来源:ScienceAI 本文约5000字,建议阅读5分钟 近日,阿里达摩院发布了 2022 十大科技趋势,其中 AI for Science 占据了卷首位置. 一个世纪以来,数字科技的演进推动了人类 ...

  5. 达摩院2020十大科技趋势发布:科技浪潮新十年序幕开启

    2020年第一个工作日,"达摩院2020十大科技趋势"发布.这是继2019年之后,阿里巴巴达摩院第二次预测年度科技趋势. 回望2019年的科技领域,静水流深之下仍有暗潮涌动.AI芯 ...

  6. 达摩院2020十大科技趋势发布:云成IT技术创新中心

    2020年第一个工作日,"达摩院2020十大科技趋势"发布.这是继2019年之后,阿里巴巴达摩院第二次预测年度科技趋势. 回望2019年的科技领域,静水流深之下仍有暗潮涌动.AI芯 ...

  7. 达摩院公布:2022十大科技趋势发布,我一个都看不懂!

    机器之心报道 编辑:萝卜皮 一个世纪以来,数字科技的演进推动了人类的技术进步与产业发展.我们当前正在经历数字科技最快发展的阶段,数字化.网络化.智能化让数字世界与物理世界的融合与协同更加紧密. 近日, ...

  8. 超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

    文章简介 本文从视觉问答(VQA)任务出发,讲述了 2015 年任务的定义开始,接踵出现的各种多模态技术.从无注意力机制的深度学习模型,发展到天然适合注意力机制的多模态场景的模型,再到基于 Trans ...

  9. 达摩院十大科技趋势发布:2020 非同小可!

    [CSDN编者按]1月2日,阿里巴巴发布<达摩院2020十大科技趋势>,十大科技趋势分别是:人工智能从感知智能向认知智能演进:计算存储一体化突破AI算力瓶颈:工业互联网的超融合:机器间大规 ...

最新文章

  1. 面试官让我手写一个生产者消费者模式?
  2. mqtt 串口_MQTT网关介绍及应用原理
  3. SAP Spartacus outlet.directive.ts里this.templateRef的来源
  4. glassfish上部署firstcup-war
  5. 实战 | F1060路由模式ISIS典型组网配置案例
  6. 解决:未能找到 CodeDom 提供程序类型 Microsoft.VJSharp.VJSharpCodeProvider
  7. 使用iftop监控网卡实时流量
  8. docker版MySQL升级
  9. labuladong算法小抄pdf下载
  10. sql server 标准版升级专业版或者开发版没有sql server profiler
  11. android使用tcpdump抓包
  12. ILSVRC2012(ImageNet2012)数据集的下载及ILSVRC2012_img_val数据集的分类
  13. mg动画制作的简单思路整理
  14. 哈佛专家推荐5种最健康食物
  15. Hex文件头部修改软件
  16. 佳人何处有,明月寄相思
  17. word 怎么删除多余的空白页
  18. linux添加javahome
  19. 深度学习论文: Cultivated Land Extraction from High-Resolution Remote Sensing Image
  20. office365和office2016jihuo

热门文章

  1. java毕业设计学生生活管理Mybatis+系统+数据库+调试部署
  2. 英雄联盟7月23日维修服务器,英雄联盟7月23日PBE版本更新 琴女技能小幅度重做...
  3. 深度剖析apache 2.4web服务器(史上最全)
  4. 由浅入深!原来SqlSession只是个甩手掌柜?分享面经
  5. ESXi 6.5 虚拟机直通K80显卡并安装NVIDIA显卡驱动:
  6. 三国志战略版:Daniel_五一活动-讲解系列二
  7. MXChip连接 Edge Impulse失败
  8. 驱动python_光驱驱动下载_万能光驱驱动(万能DVD光驱CD光驱驱动) 2018 官方版_极速下载站...
  9. java 打开目录_java 如何打开文件夹(包括文件夹内的文件夹)!
  10. 关于Mock -- vue下载excel乱码(血的教训)