点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

子豪 发自 凹非寺
本文转载自:量子位(QbitAI)

现在,给视频添加字幕,又有了新玩法。

这就是Facebook、哥伦比亚大学等大学的新研究,共同开发了一个框架——Vx2Text

这个框架可以帮助我们,从视频、音频等输入内容中提取信息,再以人类可以理解的文字,生成字幕或者回答问题等。

并且,与之前的最新技术相比,Vx2Text在三个任务中均展现出最佳的性能。

Vx2Text究竟是什么?一起往下看。

技术原理

Vx2Text是从多模态输入(由视频、文本、语音或音频组成)中提取信息,再以人类可以理解的方式,生成自然语言文本(例如:字幕、回答问题等)。

研究团队通过引入大型基准,来评估Vx2Text解释信息和生成自然语言的能力。

这些基准主要包括:用于图像或视频字幕、问答(QA)和视听对话的数据集。

为了在这些基准测试中表现出色,Vx2Text必须完成几个目标

  • 从每个模态中提取重要信息;

  • 有效地组合不同线索,以解决给定的问题;

  • 以可理解的文本形式,将结果生成和呈现出来。

并且,将这些目标嵌入一个统一的、端到端的可训练的框架中。

整个过程可以分为三步

  • 多模态输入及识别;

  • 将不同模态嵌入同一语言空间;

  • 融合多模态信息。

Vx2Text框架图解

具体而言:

输入及识别

Vx2Text接收视频、音频和语音作为输入。利用特定模态分类器,来识别输入的声音或动作等,得到相应类别的文本信息。

嵌入

通过可区分标记化,将识别得到的不同模态的文本信息,嵌入同一语言空间中,以便执行多模态融合,实现端到端的训练。

多模态融合,简单来说就是,将从文本、图像、语音、视频等多种形式的数据和信息,进行转换和融合。

先前不同模态输入信号的组合方法,大多依赖于额外的跨模态融合模块,繁重且计算成本高。

而使用Vx2Text,无需设计专门的跨模态网络模块,这种设计不仅简单得多,还可以带来更好的性能。

融合

采用通用的编-解码器语言模型,即自回归解码器模型,来融合多模态信息,以生成文本。

不同于以前的仅编码器模型,这一模型具有通用性,能直接适用于“不同模态生成文本”问题,无缝处理两种类型的任务,无需为每个任务设计专门的架构。

处理生成式任务,需要通过解码生成连贯的句子;
处理区分式任务,则需将候选答案集输入,在概率分布下,选择最高概率的答案。

实验

对Vx2Text在三个任务中的有效性进行评估:包括视频问答、视听场景感知对话和视频字幕。
分别使用三个基准数据集:TVQA、AVSD和TVC。

评估每种模态的重要性

使用不同的输入组合,评估各个模态对基于视频的文本生成性能的影响。结果表明:

  • 在AVSD和TVQA数据集中,每种模态都有助于性能提升,对于AVSD尤其明显。

  • 在AVSD的所有指标下,增加视频模态的都会带来性能提升;TVQA数据集也体现这种趋势。

  • 此外,问答的历史记录对AVSD的性能,也起到十分积极的作用。这表明模型在对话中,成功合并了先前问答的信息。

可区分标记化的的有效性

将不同的模态融合机制(包括:多模态特征嵌入、冻结标记化、可区分标记化),在AVSD和TVQA中的性能进行比较,得到结论:

  • 与多模式特征嵌入相比,冻结标记化实现了更好的性能。

  • 可区分标记化通过优化整个端到端模型,进一步提高了这两项任务的性能,在很大程度上优于其他方案

生成模型的优势

对四个模型的准确性进行评估,得到结论:

  • 对于所有大小的训练集,与去掉解码器的系统判别版本(Discriminative)相比,默认的Vx2Text模型(Generative)都更准确。

  • 此外,生成模型可以使用相同的模型进行多任务学习,无需更改架构。这样能够进一步提高准确性,尤其是对于小型训练集。

与最新技术的比较

Vx2Text(这里使用冻结标记化,而非可区分标记化)与最新技术,在AVSD上进行比较,得到结论:

  • 在带有和不带有字幕输入两种情况下,Vx2Text模型都取得了最好的效果。证明了这一模态集成简单方案的有效性。

Vx2Text与最新技术,在TVQA上进行比较(数字代表Top-1准确性(%)),得到结论:

  • 在HERO利用额外的样本进行预训练的情况下,Vx2Text仍然实现了比HERO版本更好的性能。

Vx2Text与最新技术,在TVC上进行对比,得到结论:

  • 在不使用额外样本进行预训练的情况下,Vx2Text展现出最佳的性能。

定性结论

AVSD验证集上的视听场景感知对话任务,Vx2Text生成答案示例

TVC验证集上的视频字幕任务,Vx2Text生成文本描述示例

虽然输入内容中包含一些文本,例如:对话历史记录或语音记录,但生成的文本还包含了来自其他模态的信息。例如,上图中模型成功地识别了动作,例如,帮助站起来等。

实验表明:Vx2Text能够在多模态输入中,为视听场景感知对话和视频字幕,生成逼真自然的文本

Vx2Text可以用于为录制的视频或流媒体视频添加字幕,以及服务YouTube和Vimeo等视频共享平台,依靠字幕以及其他信号来改善搜索结果的相关性。

作者

论文一作蔺旭东,目前是哥伦比亚大学计算机科学专业的博士生,主要研究领域是嵌入学习、视频分析和生成模型,本科就读于清华大学。这项研究是在其担任Facebook AI实习生时完成的。

蔺旭东(来自其个人主页)

想要了解更多细节,可戳文末链接查看~

参考链接:
https://arxiv.org/abs/2101.12059
https://venturebeat.com/2021/02/02/researchers-Vx2Text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/

点击下方卡片并关注,了解CV最新动态

CV资源下载

后台回复:CVPR2020,即可下载代码开源的论文合集

后台回复:ECCV2020,即可下载代码开源的论文合集

后台回复:YOLO,即可下载YOLOv4论文和代码

后台回复:Transformer综述,即可下载两个最新的视觉Transformer综述PDF,肝起来!

重磅!CVer-细分垂直交流群成立

扫码添加CVer助手,可申请加入CVer-细分垂直方向 微信交流群,可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,才能通过且邀请进群

▲长按加微信群

▲点击上方卡片,关注CVer公众号

整理不易,请给CVer点赞和在看

更精准地生成字幕!哥大Facebook提出Vx2Text:多模态融合,性能更强!相关推荐

  1. 更精准地生成字幕!哥大Facebook开发AI新框架,多模态融合,性能更强

    子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,给视频添加字幕,又有了新玩法. 这就是Facebook.哥伦比亚大学等大学的新研究,共同开发了一个框架--Vx2Text. 这个框架可 ...

  2. Vx2Text-多模态任务新进展!哥大Facebook提出VX2TEXT模型,实现了“视频+X”到“文本”的任务...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了VX2TEXT,一个用于从"视频+X"(X代表文本.语音或音频等)的多模态输入来生成文本 的框架.为了利用Trans ...

  3. Google用更少标签生成图像,还提出一个用于训练评估GAN的库

    参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 译者 | 刘畅 责编 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 生成对抗网络(GAN)是属于一种强有力的深度生成模型.G ...

  4. CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破: 基于生成网络的渲染器!几何形状更精准!渲染效果更真实!...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 近日,商汤-港中文联合实验室提出基于风格化对抗生成器的人脸渲染器,用于取代传统图形学基于栅格化的渲染器 ...

  5. CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破: 基于生成网络的渲染器!几何形状更精准!渲染效果更真实!

    近日,商汤-港中文联合实验室提出基于风格化对抗生成器的人脸渲染器,用于取代传统图形学基于栅格化的渲染器来进行3D模型的重建.该方法构建了一种从输入3D模型到生成图像的平滑梯度,同时可以以低精度建模获得 ...

  6. 更快更精准的感知,元戎启行提出基于LiDAR的3D物体检测新框架|CVPR 2020

    近日,L4级自动驾驶解决方案提供商元戎启行的一篇关于3D物体检测的论文被CVPR2020收录,论文题为"HVNet: Hybrid Voxel Network for LiDAR Based ...

  7. python自动生成字幕_深度学习实现自动生成图片字幕

    介绍 本次项目使用深度学习自动生成图像字幕.如上图,模型自动生成"The person is riding a surfboard in the ocean"字幕.我们具体该如何实 ...

  8. ai自动生成字幕_使用AI对您的会议进行现场字幕

    ai自动生成字幕 Many people rely on captions every day. Unfortunately, not everything has captions; this of ...

  9. 传统热度算法与AI技术的结合:探索更精准的热点分析方法

    一.热度算法的定义和应用 热度算法是指在互联网内容领域中,用来衡量和预测某个内容或话题受欢迎程度的算法.热度算法一般会考虑多个因素,如点击量.分享量.评论量.点赞量等,综合计算出一个热度值,用来衡量一 ...

最新文章

  1. NLP 层嵌入(embedding)层的理解 通俗易懂 转
  2. python中与时间有关的对象-datetime、time、date
  3. MAPLAP开发环境中release模式和debug模式烧写.hex文件的不同之处
  4. python编写计算器输入1或2代表+或x_Python实现两款计算器功能示例
  5. 插入…值(SELECT…FROM…)
  6. 解决 “Microsoft.Jet.Oledb.4.0 找不到提供者 或 未正确安装” 的方法
  7. 技术总结之SpringIOC
  8. 5.郝斌C语言笔记——运算符
  9. 图文详解超五类网线的接法
  10. android实现推特Twitter分享
  11. IP协议的详细知识总结
  12. 北京375路公交车灵异事件真相
  13. P0负载能力为 8 个 LSTTL 电路,P1-P3负载能力为4个 LSTTL 电路
  14. Debug Blocker
  15. Cisco Visio Stencil 实体图标下载
  16. 期末复习----习题
  17. 基于1939协议的发动机控制程序:包括发动机转速油门控制,发动机常用转速、机油压力、水温、工作小时读取,spn故障码取,发动机启动转速保护
  18. Python学习:给类或者类的对象添加打印内容 def __repr__(self)
  19. 你是我的好伙伴初识计算机教案,中班教案好伙伴
  20. React Native 0.59.x新特性解读

热门文章

  1. 企业标准备案网上申请步骤有哪些
  2. python RTL自动生成_成为视频分析专家:自动生成集锦的方法(Python实现)
  3. Axure VS Mockplus VS Balsamiq - 原型图设计工具对比
  4. 【Windows】Thinkpad无法进入PE问题解决(Secure Boot锁定)
  5. Google 的工程师文化
  6. tplink软件升级有用吗_TP-LINK路由器软件升级图解教程
  7. 英语写作翻译-名词(一)
  8. android 原生分享界面_原生 Android 用户终于能用上骚扰电话拦截了
  9. 【数据结构与算法基础】二叉树与其遍历序列的互化 附代码实现(C和java)
  10. 如何防止员工离职导致的源码泄露