7月9日,中国科学院自动化研究所所长徐波在2021世界人工智能大会(WAIC2021)上就人工智能的最新进展进行报告,发布了自动化所研发的跨模态通用人工智能平台—“紫东太初”。

“紫东太初” 跨模态通用人工智能平台以多模态大模型为核心,基于全栈国产化基础软硬件平台,可支撑全场景AI应用。

多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。自动化所 “紫东太初” 跨模态通用人工智能平台瞄准成为实现通用人工智能的开天之斧,在智能世界混沌初开之际开辟新局。

依托面向超大规模的高效分布式训练框架,自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉-文本-语音三模态统一表示,构建了三模态预训练大模型,赋予跨模态通用人工智能平台多种核心能力。

“紫东太初”兼具跨模态理解和生成能力。与单模态和图文两模态相比,其采用一个大模型就可以灵活支撑图-文-音全场景AI应用,具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。引入语音模态后的多模态预训练模型,可实现共性图文音语义空间表征和利用,并突破性地直接实现三模态的统一表示。特别地首次使 “以图生音”和“以音生图”成为现实,对更广泛、更多样的下游任务提供模型基础支撑,达成AI在如视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。

此外,自动化所研发团队还提出了弱关联三模态数据的语义统一表达,可同时支持三种或任两种模态弱关联数据进行预训练,有效降低了多模态数据收集与清洗成本。

总结来说,此跨模态通用人工智能平台包括三大关键技术和六大核心能力。三大关键技术为多模态理解与生成多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化。六大核心能力则体现为多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构合计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速。

会上,徐波所长展示了自动化所打造的虚拟人“小初”,通用多模态大模型的人机对话演示,展示了不同模态间的互相转换和生成实例,涵盖视频描述、智能问答、图像检索、吟诗作赋、中文续写、双语翻译、语音识别等多个功能。生动证明,通过图文音三模态的关联与协同可以有效的提升机器的理解和生成能力,让AI接近人类想象力!

徐波表示,“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式,多模态大模型将成为不同领域的共性平台技术,是迈向通用人工智能路径的探索,具有广阔的应用前景。同时,全栈国产化通用人工智能平台的实践将使人工智能研发的规则发生重大变革并逐渐形成壁垒,对我国实现AI领域科技创新、占领核心技术高地具有重要的战略意义。

— 完 —

多模态大模型——通用人工智能路径的探索相关推荐

  1. 昇腾AI与“紫东.太初”赋能法律服务,多模态大模型迈向“多专多能”

    日前举办的华为全联接大会2022上,中国科学院自动化研究所所长徐波在演讲中提出了一个新观点:"多模态是人工智能迈向通用化的关键一步." 学术界并不缺少大模型的"摇旗者&q ...

  2. 多模态大模型时代下的文档图像智能分析与处理

    多模态大模型时代下的文档图像智能分析与处理 0. 前言 1. 人工智能发展历程 1.1 传统机器学习 1.2 深度学习 1.3 多模态大模型时代 2. CCIG 文档图像智能分析与处理论坛 2.1 文 ...

  3. 熔岩羊驼LLaVA:社区又一个多模态大模型,像GPT-4一样可以看图聊天

    本文来源  机器之心  编辑:赵阳 尽管 LLaVA 是用一个小的多模态指令数据集训练的,但它在一些示例上展示了与多模态模型 GPT-4 非常相似的推理结果. GPT-4 的识图能力什么时候能上线呢? ...

  4. 百度联合行业头部企业新发5个行业大模型,大模型产业落地路径愈发清晰

    本文已在[飞桨PaddlePaddle]公众号平台发布,详情请戳链接:百度联合行业头部企业新发5个行业大模型,大模型产业落地路径愈发清晰 11月30日,由深度学习技术与应用国家工程研究中心主办.飞桨承 ...

  5. 多模态大模型的发展、挑战与应用

    多模态大模型的发展.挑战与应用 2023/04/15 研究进展 随着 AlexNet [1] 的出现,过去十年里深度学习得到了快速的发展,而卷积神经网络也从 AlexNet 逐步发展到了 VGG [2 ...

  6. 多模态大模型综述: LLaVA, MiniGPT4

    文章目录 LLaVA 一. 简介 1.1. 摘要 1.2. 引言 二. 相关工作 三. 基于GPT辅助的视觉指令数据生成 四. Visual Instruction Tuning 4.1 网络结构 4 ...

  7. GPT-4炸圈--多模态大模型

    前言 在chatGPT如火如荼的时候,OpenAI又上演了王者归来的戏码,重磅发布了GPT-4.GPT-4是作为"帮你写代码"和你"肆意聊天"的chatGPT的 ...

  8. GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结的时代到来了?

    ChatGPT 点燃了科技行业的明灯,GPT-4 能燎原吗? 谁能革得了 ChatGPT 的命?现在看来还是 OpenAI 自己. 人们一直在探讨AI下一步的发展方向是什么,特别是在ChatGPT引爆 ...

  9. 【人工智能AIChatGPT】GPT-4 震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?

    ChatGPT 点燃了科技行业的明灯,GPT-4 能燎原吗? GPT-4论文:https://cdn.openai.com/papers/gpt-4.pdf 目录 GPT-4 是什么? GPT-4 实 ...

最新文章

  1. 程序员生活智慧集——卓越程序员密码
  2. Python练习_三级菜单
  3. C语言Huffman Encode霍夫曼编码的算法(附完整源码)
  4. 从面试官问“为什么选择mysql数据库”说开去
  5. 量化投资拥有光明的未来
  6. Hive执行计划之 Group By Operator
  7. 【LeetCode】【refine 2】题号:*2. 两数相加
  8. Atitit 编程语言原理与概论attilax总结 三大书籍总结
  9. 数据采集程序(网页小偷)点滴心得
  10. 小猪的Python学习之旅 —— 22.安静!吵到我用TNT了
  11. android - 房源登记模版
  12. 2019年计算机操作系统考研真题
  13. GPS: 经纬度概念
  14. Apache网页优化(网页压缩、网页缓存、隐藏版本、配置防盗链)
  15. php+laravel 扫码二维码签到
  16. 雅利安人有多强悍?灭掉三个文明古国,为何败在殷商的脚下
  17. 手写一个获取验证码的接口,超级简单
  18. dr优先级默认_OSPF路由器不能成为DR/BDR唯一的方法:DR优先级=0
  19. 诛仙3 私服架设 仿官网
  20. mr编程实现手机流量统计和读取MySQL数据

热门文章

  1. 祝天下所有的老师教师节快乐
  2. 不是微型计算机主板上的部件,微型计算机主板上安装的主要部件
  3. 高翔博士SLAMBOO2十二讲代码库中的三方库没有下载下来 ,需要手动对三方库单独下载的git的命令如下
  4. ThreadLocalMap的enrty的key为什么要设置成弱引用
  5. 协方差中的正相关与负相关
  6. Pytorch:transforms的二十二个方法
  7. 对3维数组中间一维进行操示例
  8. E2Cloud体验-快速构建一个开发项目环境
  9. 《预训练周刊》第4期:智源「悟道1.0」发布、GPT-3对新一代APP的赋能路径
  10. 开启报名丨中文信息学会青工委学术沙龙:“推荐系统前沿进展”