引言:我们正处于一个“多模多任务大统一”的AI时代。

老铁们,上图是对动漫《海贼王》所选框的文字描述(Zero-shot测试),而这一“炫酷”的效果正式由达摩院最新发布的多模统一模型OFA搞定的~

曾几何时,建立一个能像人类一样同时处理多模态、多任务的通用模型一直是AI领域的1个“小目标”。

而最近阿里达摩院发布了模态、任务、结构统一的模型OFA,将多模态及单模态的理解和生成任务统一到1个简单的Seq2Seq生成式框架中,OFA执行预训练并使用任务指令进行微调,并且没有引入额外的任务特定层进行微调。

具体地说:

  • 统一模态:统一图片、视频、文本的多模态输入形式;

  • 统一结构:采取统一采用Seq2Seq生成式框架;

  • 统一任务:对不同任务人工设计了8种任务指令;

正如上图所说,OFA覆盖的下游任务横跨多模态生成、多模态理解、图片分类、自然语言理解、文本生成等多个场景,在图文描述、图像生成、视觉问答、图文推理、物体定位等多个风格各异的任务上取得SOTA。

  • 论文题目:Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

  • 论文地址:https://arxiv.org/pdf/2202.03052.pdf

  • 开源地址:https://github.com/OFA-Sys/OFA

如何实现3个统一?

为了统一多模态输入,OFA将文本、图片以及其中的物体离散化到一个统一的词表中。具体做法是,将文本用BPE转化为subwords,将图片简单切分成多个patch并使用image quantization转化为image code,抽取图片中的物体的标签和bounding box并将bounding box离散化为location tokens <x1, y1, x2, y2>。最后,统一词表是文本的subwords,图片的image code和物体的location tokens三者的并集。

为了实现统一模型,OFA继续复用了在之前的大量工作中证明能有效地兼容不同的模态的Transformer结构。同时为了加快模型收敛,本文使用了post-normalization。

为了统一不同任务,OFA对不同任务人工设计了8种任务指令。其中,对多模任务设计了5种指令(如上图中蓝色矩形),对视觉任务设计了2种指令(如上图中红色矩形),对语言任务设计了1中指令(如图中黄色矩形)。以image grounding任务为例,模型输入为足球比赛图片和指令’Which region does the text ‘Man in white shirt’ describe’,希望模型能生成正确的白衣球员的正确位置信息。

主要实验结果

为了验证模型的有效性,论文分别进行了跨模态、单模态和zero-shot实验。

1、跨模态任务

从实验结果中可以看到,OFA在image caption、VQA、visual entailment 和 referring expression comprehension 4个跨模态任务中都取得了SOTA。其中,OFA还超过了180亿参数的大模型SimVLM。

另外,在image-to-text generation任务中,OFA 也超过了DALLE, CogView和最近大火的NÜWA模型。

2、单模态任务

在文本任务上,如下表所示,OFA在文本理解数据集GLUE上大幅度超过了多模预训练模型SimVLM,并且和BERT的效果媲美,同时也在摘要生成数据集Gigaword上超过了大多数纯文本预训练模型。

在图片分类任务上,OFA不仅超过了EfficientNet-B7等backbone模型,同时也超过了基于对比学习的SimCLR和MoCo,并且与基于masked image modeling训练的BEiT-L和MAE-L模型取得了相近的结果。

3、Zero-shot和任务迁移

如上图,OFA在6个GLUE的单句和句子对分类任务上进行了zero-shot实验,效果超过了同期模型Uni-perciver,但是在句子对分类上的效果并不好,准确度低于60%。

为了验证OFA的zero-shot泛化能力,作者设计了一种grounded answering的新任务,如下图所示,对图片中的某一区域进行提问,模型也能给出满意的答案。

同时,OFA也在VQA任务中使用out-of-domain的图片进行了测试,发现模型也能取得一定效果。

总结:

本文介绍的统一模型OFA是一个与任务无关、模态无关的综合性、大一统模型。

  • OFA实现了结构、任务和模态的统一,因此能够实现多模态和单模态理解和生成,无需在附加层或任务中指定。

  • OFA达到了图像字幕、文本到图像生成、VQA、SNLI-VE等方面的新SOTA。

  • OFA展示了与语言/视觉预训练模型在单模态理解中的可比性能。

  • OFA进一步分析了它在零样本学习下领域和任务转移方面的有效性。

最后,达摩院表示:正努力构建一个可推广到复杂现实世界的全能模型解决方案

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

AI大一统:阿里达摩院发布多任务、多模态统一模型OFA相关推荐

  1. 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)...

    转自:机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注.今日,阿里达摩院发 ...

  2. 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG

    作者|机器之心编辑部 来源|机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关 ...

  3. NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略

    NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介.架构组成.模型训练.使用方法之详细攻略 目录 PLUG的简介 PLUG的得分 PLUG的特点 PLUG的架构组成 PLUG的模型训 ...

  4. 《预训练周刊》第7期:傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG

    No.07 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 ‍‍‍超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第7期 ...

  5. 重磅!阿里达摩院发布《2020十大科技趋势》

    来源:雷锋网 2019年,是新兴科技发展史上的重要年份. 这一年,各大公司的AI.云计算.大数据走向下沉市场,空中博弈进入到地面作战,技术的商业化成为生意成败的重要考量.其间,产业与场景成为大漏斗,好 ...

  6. 阿里达摩院发布2019年十大科技趋势

    "  据悉,这是达摩院自2017年10月成立以来发布的首份科技趋势报告.此前,马云对达摩院的发展提出三个要求:「活得要比阿里巴巴长」.「服务全世界至少 20 亿人口」.「必须面向未来.用科技 ...

  7. 坐拥270亿参数!阿里达摩院发布超大规模语言模型PLUG,上能写诗词歌赋、下能对答如流...

    作者 | 马超 出品 | CSDN(ID:CSDNnews) 日前,阿里达摩院发布了最新中文预训练语言模型 PLUG,在 PLUG 生成的各种诗歌与小说中,不时灵光闪现式的金句.妙语令人啧啧称奇. 但 ...

  8. 阿里达摩院发布中文领域最大规模语言模型PLUG测试访问地址

    **阿里达摩院发布中文领域最大规模语言模型 ** 测试地址: https://nlp.aliyun.com/portal#/BigText_chinese

  9. 从 AI、芯片到量子计算,阿里达摩院发布 2020 十大科技趋势

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :阿里达摩院 [人工智能资源 ...

最新文章

  1. 设计模式之组合模式(Composite)摘录
  2. redis python zset
  3. 独家 | 忘记波士顿动力公司。这个机器人可以自学走路
  4. 聊聊JVM(六)理解JVM的safepoint
  5. JAVA学习 02Day
  6. C#编写程序监测某个文件夹内是否有文件进行了增,删,改的动作?
  7. mysql-笔记-命名、索引规范
  8. CSS如何水平垂直居中?
  9. python中data.find_all爬取网站为空列表_利用Golang快速爬取盗版网站的整套音频
  10. mysql with 查询_mysql笔记(6)-多表查询之with
  11. 《嵌入式系统开发之道——菜鸟成长日志与项目经理的私房菜》——01-06 工作内容:做个工程师,而非程序工人...
  12. 网易云音乐显示网络异常
  13. c语言窗口炸弹代码,C语言实现宾果消消乐.pdf
  14. 将数字转为中文金额的大写方式(C++版)
  15. editormd 上传图片问题解决
  16. X509TrustManager信任SSL证书
  17. 项目管理要分解目标,明确每个人的任务
  18. 基于机器学习的笑脸检测
  19. 3d学习笔记(十)——多人联机游戏
  20. apache如何支持php,apache支持php吗

热门文章

  1. 贷后风控中逾期案件差异化的分配逻辑
  2. Linux 的软件管理及配置 - 安装、卸载、升级、依赖
  3. Boolan第一周笔记(二)对于第一周作业的一点总结
  4. TensorFlow实战5——TensorFlow实现AlexNet
  5. 前端MVC学习总结(三)——AngularJS服务、路由、内置API、jQueryLite
  6. Spring AOP AspectJ 代码实例
  7. 小组站立会议之冲次会议2
  8. 【翻译】五步快速使用LINQPad尝鲜StreamInsight
  9. linux shell 流程控制(条件if,循环【for,while】,选择【case】语句实例
  10. ArcGIS:ArcToolBox工具使用——提取DEM/DSM中的高程点