Facebook AI的多任务多模态的统一Transformer
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
仅作学术分享,不代表本公众号立场,侵权联系删除
转载于:作者:Synced
编译:ronghuaiyang
导读
一个模型完成了CV,NLP方向的7个任务,每个任务上表现都非常好。
论文链接:https://arxiv.org/pdf/2102.10772.pdf
Transformer架构在自然语言处理和其他领域的机器学习(ML)任务中表现出了巨大的成功,但大多仅限于单个领域或特定的多模态领域的任务。例如,ViT专门用于视觉相关的任务,BERT专注于语言任务,而VILBERT-MT只用于相关的视觉和语言任务。
一个自然产生的问题是:我们能否建立一个单一的Transformer,能够在多种模态下处理不同领域的广泛应用?最近,Facebook的一个人工智能研究团队进行了一个新的统一Transformer(UniT) encoder-decoder模型的挑战,该模型在不同的模态下联合训练多个任务,并通过一组统一的模型参数在这些不同的任务上都实现了强大的性能。
Transformer首先应用于sequence-to-sequence模型的语言领域。它们已经扩展到视觉领域,甚至被应用于视觉和语言的联合推理任务。尽管可以针对各种下游任务中的应用对预先训练好的Transformer进行微调,并获得良好的结果,但这种模型微调方法会导致为每个下游任务创建不同的参数集。
Facebook的人工智能研究人员提出,一个Transformer可能就是我们真正需要的。他们的UniT是建立在传统的Transformer编码器-解码器架构上,包括每个输入模态类型的独立编码器,后面跟一个具有简单的每个任务特定的头的解码器。输入有两种形式:图像和文本。首先,卷积神经网络骨干网提取视觉特征,然后BERT将语言输入编码成隐藏状态序列。然后,Transformer解码器应用于编码的单个模态或两个编码模态的连接序列(取决于任务是单模态还是多模态)。最后,Transformer解码器的表示将被传递到特定任务的头,该头将输出最终的预测。
UniT模型概要
评估UniT的性能,研究人员进行了实验,需要共同学习来自不同领域的许多流行的任务:COCO目标检测和 Visual Genome数据集,语言理解任务的GLUE基准(QNLI, QQP、MNLI-mismatched SST-2),以及视觉推理任务VQAv2 SNLI-VE数据集。
多任务训练的UniT性能优于单独训练的目标检测和VQA
基于UniT模型的目标检测与VQA的分析
UniT模型在8个数据集的7个任务上的性能
具有共享解码器的UniT模型的预测
结果表明,所提出的UniT 模型同时处理8个数据集上的7个任务,在统一的模型参数集下,每个任务都有较强的性能。强大的性能表明UniT有潜力成为一种领域未知的transformer 架构,向更通用的智能的目标迈进了一步。
—END—
英文原文:https://medium.com/syncedreview/facebook-ais-multitask-multimodal-unified-transformer-a-step-toward-general-purpose-98db2c858603
点个在看 paper不断!
Facebook AI的多任务多模态的统一Transformer相关推荐
- 来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 作者:Synced 编译:ronghuaiyang 导读 一个模型完成了CV,NLP方向的7个任 ...
- 独家 | Facebook AI发布DETR一种基于Transformer的对象检测方法!
作者:PRATEEK JOSHI 翻译:陈之炎 校对:王晓颖 本文约1800字,建议阅读8分钟. 每隔一段时间,一些新的机器学习的框架或者库就会改变整个领域的格局.今天,Facebook开源了-DET ...
- Facebook AI的DETR:一种基于Transformer的目标检测方法
介绍 机器学习框架或库有时会更改该领域的格局.前不久,Facebook开源了一个这样的框架,DETR(DEtection TRansformer) 在本文中,我们将快速了解目标检测的概念,然后研究DE ...
- 【自然语言处理】【多模态】UniT:基于统一Transformer的多模态多任务学习
UniT:基于统一Transformer的多模态多任务学习 <UniT:Multimodal Multitask Learning with a Unified Transformer> ...
- 更精准地生成字幕!哥大Facebook提出Vx2Text:多模态融合,性能更强!
点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 子豪 发自 凹非寺 本文转载自:量子位(QbitAI) 现在,给视频添加字幕,又有了新玩法. ...
- 人脑启发AI设计:让神经网络统一翻译语音和文本
来源:图灵人工智能 作者:Glaciohound 编辑:陈彩娴 能够统一地理解语音和文本,是人类能够形成通用语言能力的重要原因.那么,人工智能是否也能如此?最近,来自字节跳动和UIUC的研究人员借鉴这 ...
- 复旦提出M2TR:首个多模态多尺度Transformer
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文授权转载自:我辈怎是蓬篙人(系粉丝投稿) M2TR: 首个多模态多尺度Transformer CNN?是 ...
- 【20210109期 AI周报】该重视 Vision Transformer 了
当你还在研究目标检测中one2one的时候,当你还在死磕模型lantency的时候,当你还在折腾模型NPU部署的时候,当...,我不得不提一下:该重视Vision Transformer了.自2020 ...
- Facebook AI新架构:全景FPN,同时完成图像实例与语义分割 | 极客头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑ 整理 | 刘旭坤.Jane 出品 | AI科技大本营(id:rgznai100) 实例分割和语义分割长期以来都是运用不同的神经网络架构来完成的, ...
最新文章
- Blender3.0电影级别CG场景制作视频教程
- NC:电缆细菌减少水稻种植土壤中的甲烷排放
- Ubuntu 16.04安装NASM汇编IDE-SASM
- 轻量级web api_10个很棒的JavaScript库,提升Web开发效率
- ASP.NET 数据绑定控件(转)
- stl_vector.h
- 5.1.3 IO控制方式
- 【每周CV论文】深度学习图像降噪应该从阅读哪些文章开始
- 新浪微博Python客户端接口OAuth2
- Java私有,受保护,公共和默认
- Flex调用WebService后的数据处理
- 类的序列化[Serializable]
- Co-Fusion: Real-time Segmentation, Tracking and Fusion of Multiple Objects
- jStat:轻量级Javascript统计库
- 插件开发之360 DroidPlugin源码分析(四)Activity预注册占坑
- 定投计算器和年化利率计算器
- NR TAC Tracking Area Code
- 爱是永恒,依然爱是您
- WIN10下PyCharm+Anaconda+PyTorch-GPU+CUDA9.2+cuDNN7.2环境搭建
- pde与波长 sipm 关系_基于SiPM和TCMPC的时间分辨拉曼散射测量技术研究
热门文章
- 保证你现在和未来不失业的10种关键技【转载】
- adoquery查询结果如何赋给一个变量(delphi和c++ builder)
- Numpy入门教程:09. 输入和输出
- LeetCode刷题宝典 V1.0 PDF下载
- 【怎样写代码】偷窥高手 -- 反射技术(四):深入窥视属性
- 【怎样写代码】向现有类型“添加”方法 -- 扩展方法(三):为枚举类型创建方法
- HOGDescriptor 描述类
- 后疫情时代,RTC期待新的场景大爆发
- Mendix 披露低代码方法论,解读真实技术趋势
- 清明出游,你会“鸽”酒店吗?AI 早已看穿一切