文 | 付瑶
编 | 小轶

最近多模态研究圈中出现了一个扬言 “史上最大规模”的多模态图文数据集:LAION-400。该数据集在今年8月完全公开,共计公开了 4亿图文对,可以依据不同的用途提供不同大小版本的子数据集。据小编调查,在 LAION-400 出现前,多模态图像文本对的最大的开放数据集是 DALE 数据集,该数据集的规模在 10M 左右,大概是 LAION-400 的 1/40,其在图文对检索等任务中已显示数据集不够大导致模型的性能欠缺。

LAION-400M 通过 CommonCrawl 提取出随机抓取 2014-2021 年的网页中的图片、文本内容。通过 OpenAI 的 Clip 计算,去除了原始数据集中文本和图片嵌入之间预先相似度低于0.3的内容和文本,提供了4亿个初筛后的图像文本对样本。

数据集下载链接
https://laion.ai/laion-400-open-dataset/

▲LAION-400M 数据样例

近两年多模态的研究已经成为了一大热点。所谓道“工欲善其事,必先利其器”,一个优质的数据集是研究过程中必不可少的装备。小编在本文整理了一些常见的多模态任务常用的数据集,分享给大家:

任务一:多模态情感分析

在过去的研究中,大多数基于情感分析的研究都是采用单一模态,随着情感分析算法逐渐成熟,研究者们可以发现在解决单模态的局限性的研究中,可以通过将多种模态通过特征融合、决策融合等策略等方式,使得模态之间互相辅助,互为补充,既保留模态之间的一致性,也利用模态之间的差异性。在多模态情感分析的研究中,主要有以下几个数据集:

IEMOCAP数据集

该数据集是2008年由南加大SAIL实验室录制收集,共包含了5个男演员和5个女演员录制情感互动过程,录制时长大约12h。单条数据包括对话者的音频、视频、文本、面部和姿势信息等,情感标签为愤怒、快乐、悲伤、中立等10个标签。IEMOCAP是多模态对话情绪识别中最常用的数据集,数据集单条质量较高,但是其数据集的规模较小。

相关论文:
《IEMOCAP: interactive emotional dyadic motion capture database. Lang Resources & Evaluation. 2008.》

数据集下载链接:
https://sail.usc.edu/iemocap/

该数据集需要发送申请表提供数据集用途,数据集提供方才会回复下载链接

MELD数据集

该数据集于2019年公布,是由从电视剧《老友记》中截取片段构成,模态包括文本信息、视频,共计1400对对话,总共13000句,包含7中情感,分别是angger、disgust、sadness、joy、Netural、suprise、fear,对每句话有情感注释positive、negative、neutral。该数据集规模较大,但是其剧情相关背景较为复杂,识别情感的难度增大。

相关论文:
《MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversation》

数据集下载链接:
https://affective-meld.github.io/

CH-SIMS数据集

该数据集中包含60个原始视频,从中文影视作品《西虹市》、《妖猫传》中剪辑出2281个视频片段,每个片段长度在1s——10s之间。数据集的情感标注为-1(负向)、0(中性)、1(正向)。除此之外,在论文的实验中,作者证明了单模态标签对多模态的改进,该数据集不仅有多模态最终的标签,还具备各个单模态的情感标签。

相关论文:
《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》

数据集下载链接:
https://drive.google.com/drive/folders/1E5kojBirtd5VbfHsFp6FYWkQunk73Nsv官方提供的google drive链接

SEMAINE数据集

该数据集由SEMAINE数据库收集,构建了4个机器人进行对话,数据集标注的情感维度采用连续模式情感标注,情感维度为:Valence (愉悦度), Arousal (激活度), Expectancy (预期), Power (力量)。其中Valence表示情感积极向的程度,Arousal表示兴奋程度,Expectancy表示与预期相符的程度,power表示情感影响力,其中Valence、Arousa和Expectancy为[-1, 1]范围内的连续值,Power为大于等于0的连续值。SEMAINE是对话情绪识别最常用的连续情感标注的数据集。

相关论文:
《The SEMAINE Database: Annotated Multimodal Records of Emotionally Colored Conversations between a Person and a Limited Agent》

数据集下载链接:
https://semaine-db.eu/DailyDialog

除以上三个最具代表性的多模态情感分析数据集之外 CMU 制作的CMU-MOSEI、CMU—MOSI、上海交通大学标注的SEED等数据集结合了视频、文本、语音等模态,也是多模态情感分析研究任务较为通用的数据集。

任务二:多模态检索

多模态检索即不同模态的同类别之间的搜索,例如文搜图,图搜文等,融合不同的模态便于检索,

COCO

COCO数据集是2015年由微软发布的一个大型物体检测、分割和字母数据集,包含近20万个图像,91类目标、328000影响和2500000个label,标注分为目标点检测、关键点检测、实例分割、全景分割、图片标注,COCO数据集主页还提供了Matlab、Python和Lua的API接口,可以提供完整的数据的加载、parsing和可视化。

相关论文:
《Microsoft COCO Captions Data Collection and Evaluation Server》

数据集下载链接:
https://cocodataset.org/#download

IAPR TC-12数据集

IAPR TC-12是图像模式识别协会来源自2万张拍摄于世界各地的静态自然图像,包括不同的运动和动作的照片,人、动物、城市、风景和当代生活的许多其他方面的照片。每张图片配对了三种语言英语、德语、西班牙语的标注。

相关论文:
《The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems》

数据集下载链接:
https://www.imageclef.org/photodata

Conceptual Captions Dataset

该数据集于2018年出品自GoogleAI,研究者们团队通过创建自动 pipeline从数十亿的网页中提取和过滤图片标题,大约有330万张图片-文字对。

相关论文:
《Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning》

数据集下载链接:
https://github.com/google-research-datasets/conceptual-captions

任务三:多模态对话

大规模多模态对话数据集可以对话中不同的视觉信息融入到对话中,进而生成更高质量的对话。

OpenViDial 数据集

OpenViDial 数据集于2020年创建,通过构建训练一个OCR模型提取图片+添加字幕”的形式构造得到。该数据集从影视作品抽取字幕和当前字幕的视频帧构成(句子、图片)对,保持数据分布的一致性,经过数据处理和清洗,最终得到一百万余句子以及对应的图片信息。

相关论文:
《OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts》

数据集下载链接:
https://github.com/ShannonAI/OpenViDial

小结

本文介绍了多模态几大任务所常用的数据集,我们可以看到主要以下两种方式来构建多模态情数据集:第一种是来自网络资源例如从影视资源中截取片段构建的MELD,CH-SIMS数据集。另外一种是基于对特定情感类别进行演绎并录制,例如IECOMP。除此之外,多模态数据集的模态也可以通过包含模态区分,例如图文多模态数据集、文本视频音频组合数据集、脑电模态数据集等。由于多模态数据集的标注涉及到两种模态之间的对齐、统一标注标准等问题,相较于单模态的数据集更加复杂耗力,因此除了构建规模更大,数据更优质的数据集,制定更高效的多模态情感数据集的标注策略也是值得关注的问题。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

史上最大多模态图文数据集发布!相关推荐

  1. 史上最快AI计算机发布!谷歌TPU V3的1/5功耗、1/30体积,首台实体机已交付

    大数据文摘 昨天 大数据文摘作品 还记得8月份占据各家科技头条的有史以来最大芯片吗? 这个名为Cerebras Wafer Scale Engine(WSE)的"巨无霸"面积达到4 ...

  2. 史上最大最贵 iPhone 发布,支持双卡双待,附发布会完整视频!

    睡了一觉,世界已然变化!早上起来,有没有被苹果发布会刷屏? 送你个开篇彩蛋,没熬夜撸直播的,下面就是中文同传翻译版本的完整发布会视频! 苹果2018秋季新品发布会(中文同传声版) 想省时间?就直接看下 ...

  3. 史上最详细LRW数据集、LRW-1000数据集、LRS2数据集、LRS3-TED数据集、OuluVS2数据集介绍

    update 2022-10-22: 更新了LRW1000的官网链接详见史上最详细唇语识别数据集综述 本文将介绍唇语识别领域使用最多的几个数据集. 一.本文将详细的介绍数据集的格式以及处理方法,欢迎在 ...

  4. android 上最强的计算器,史上最强超级计算器发布!完爆科学计算器

    近日,网易正式发布有道超级计算器,日常计算.分式化简.方程求解.多项式分解和展开.微积分,统统包含其中,比科学计算器还要强大. 据介绍,有道超级计算器可以自动显示日常计算的结果,并可以对计算结果进行操 ...

  5. 史上最全图文精美排版技巧

    定期更新新媒体知识,在学习之中,有问题可以留言,大家交流,谢谢! 系统性思维和版面设计 举例:★ 红星照我去奋斗 举例:浪漫 小店周末不打烊,左边的小圆环可以复制多个哦 总结:手机屏幕好比是一个衣柜, ...

  6. Java泛型详解,史上最全图文详解

    泛型在java中有很重要的地位,无论是开源框架还是JDK源码都能看到它. 毫不夸张的说,泛型是通用设计上必不可少的元素,所以真正理解与正确使用泛型,是一门必修课. 一:泛型本质 Java 泛型(gen ...

  7. 英伟达发布史上最强GPU,却叫停了自动驾驶车路测

    作者 | DavidZh 出品 | AI科技大本营(公众号ID:rgznai100) 当地时间 3 月 27 日,英伟达在美国圣克拉的 GTC 大会上推出多款产品. ▌显卡扩容,史上最强的 DGX-2 ...

  8. 我的世界1.8正版服务器大全,史上最全服务器汇总 我的世界1.8服务器地址大全...

    我的世界服务器指令大全 史上最全的服务器指令介绍.那大家也知道在我的世界中有许许多多的指令,有的是单机的有的是手机的也有的是服务器的,那今天给大家介绍的是服务器的指令,那下面一起来看看在服务器里面都有 ...

  9. 史上最详细Lipreading using Temporal Convolutional Networks(MS-TCN)代码层面详解

    本文将从代码层面详细介绍在LRW数据集实现SOTA效果的唇语识别模型MS-TCN.GitHub代码请看Lipreading using Temporal Convolutional Networks, ...

最新文章

  1. matlab的NLP功能,pyhanlp 共性分析与短语提取内容详解
  2. MIT课程笔记①丨因果关系定义及潜在结果分析框架
  3. python基础-牛逼的三层循环,实现想在那里退出,就在那里退出。
  4. python 04 基础
  5. linux texlive 中文,Ubuntu 安装 TexLive2013 及中文支持
  6. 纯JAVA写的socket局域网斗地主游戏
  7. java mina框架教程_[Java教程]Mina框架HelloWorld入门
  8. 用python计算100以内的素数_python-找出100以内的质数
  9. 语音识别-声纹识别-语音合成【专题三】
  10. FileNotFoundException报错, src\main\....\....(拒绝访问) , 原因:1. 方法没有判断文件夹和文件, 2.没有指明文件的具体路径和名字...
  11. 树莓派基础实验12:PCF8591模数转换器实验
  12. 图形渲染——实时光线追踪RTRT(Games202)
  13. 我教宝宝学AI (五)挖坑中成长
  14. 文明重启战局服务器维护中,王牌战争文明重启8月23日更新公告
  15. 通信协议之IIC协议(eeprom)_通俗易懂篇!
  16. word文档生成目录的方法,word生成目录之后怎么修改页码
  17. MVG读书笔记——相机模型
  18. php中实现考勤,php教学互动-考勤作业系统
  19. 科研中如何保持积极的心态
  20. 3D跑酷教程 —— 相机的使用

热门文章

  1. linux内核同步机制相关收集
  2. 1006实验一实验报告
  3. mysql中ibatis的limit动态传参
  4. hdu2709 Sumsets 递推
  5. AngularJs学习笔记--Modules
  6. 从没想过会有一个这样的机会|大疆招聘
  7. 每日一练(8)—— 野指针
  8. python如何调用阿里云接口_Python调用aliyun API设置阿里云负载均衡虚拟服务器组权重...
  9. 1+X web中级 Laravel学习笔记——Laravel中的路由
  10. 六、pink老师学习笔记——CSS三角形之美 margin负值之美文字围绕浮动元素行内块元素布局的巧妙运用