Visually Grounded Reasoning across Languages and Cultures

一句话总结


作者认为以ImageNet为代表的数据集由于数据均来源自英文词库,天生带有英语的偏置,因此提出了多文化多语言的数据集MaRVL,以推动领域发展。

关于本文:

来自EMNLP 2021的Best Paper,今年EMNLP的长、短、demo最佳论文均为数据集相关文章,可见算法做到一定程度之后,领域自然又会将目光聚焦在数据身上,算法-数据集-算法-数据集,或许是一个必然的上升螺旋吧。

另一方面,多模态也渐渐地成为了NLP发展的一个重要趋势,毕竟人类在理解语言的时候总离不开图像感知的参与。

导论


Motivation:

众所周知,ImageNet数据集为CV领域开辟了道路,现今广泛使用的视觉语言数据集和预训练编码器均是基于ImageNet建立,或者从中吸取灵感而来的。然而,由于其数据来源主要是英文的词汇库和图像查询,会带有北美或西欧的数据偏置。

有证据表明ImageNet数据的来源(origin)与内容(content)都存在着某种倾向,也有人曾为了纠正这种倾向提出干预数据,过滤、重新平衡一些类别,但若是原分布本就未能涵盖多语言多文化,这种方法便不足以解决这个问题。

作者用一章的篇幅论述了ImageNet的局限性以及偏置的来源。

简单来说,在局限性方面,作者认为ImageNet数据集概念不普遍概念过于特定于英语。偏置来源于 概念的选择(其中1K个随机选择的概念可能有所偏向)、候选图像检索(检索到的图像不符合真实世界分布)、图像过滤(完全取决于AMT标注者)。

Contribution:

作者设计了一种新的 protocol 来构建一个代表更多语言和文化的 ImageNet 风格的层次结构,让概念和图像的选择完全由母语人士驱动,而不是自动抓取它们。具体来说,这些人关注的是一组不同类型的语言,即印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语。

他们通过要求注释者比较对比 图像对 来引出对图像的母语描述,任务是确定这些基于图像的描述是真是假。因为这个任务需要跨模态的信息整合,以及深层的语言理解,而不仅仅是匹配表面特征。

借助这种方法,他们创建了一个基于视觉、语言多元文化推理(Multicultural Reasoning over Vision and Language,MaRVL)的多语言数据集。


可以看出,概念、图像以及语言的多样性共同组成的领域变化使得MaRVL数据集极具挑战性。

MaRVL:数据标注


数据集的创建一共分为五步

语言选择

作者选择了五种语言,分别是印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语,从类型(typologically)、语系(genealogically)、地理(geographically)上皆不同。另外,还覆盖了不同的写作系统并包含了低资源语言。

普适性概念选择

特定语言概念选择

每种语言雇了五个Native Speaker为他们所属文化的每一个语义域的5到10个特定概念提供Wiki百科页面的链接。

概念需要满足两个关键需求:

  • 在使用这种语言的人群中 常见或有代表性
  • 最好是以物质形式存在且具体的

比如说,中文的古筝

图像选择

描述标注

从图像集中随机选8张图像,随机组成4个图像对。

每位标注者被要求写一个描述,此描述对于两个图像对为True,两个图像对为False。

在最后的数据集中,一个数据点包含两张图像,一个描述,和一个True/False标签。

数据集分析


图像分布

作者使用在ImageNet上训练的ResNet50 分别对MaRVL图像以及从NLVR2采样的1K张随机图像进行特征提取,提取后使用UMAP将它们的嵌入分布可视化。


结果发现,MaRVL的中文图像与来自NLVR2的英文图像有着极为不同的分布。

同时,也对MaRVL中的印尼语和斯瓦希里语的图像分布进行了比较,结果表明在不同语言间也有着不同的分布,这主要是由于两者特有的概念集合。

『论文笔记』Visually Grounded Reasoning across Languages and Cultures相关推荐

  1. 『论文笔记』TensorFlow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!

    TensorFlow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集! 文章目录 前期准备 一. Yolov3简要介绍 1.1. Yolov3网络结构图 1.2. ...

  2. 『论文笔记』Two Causal Principles for Improving Visual Dialog

    Two Causal Principles for Improving Visual Dialog 一句话总结 从因果图角度审视视觉对话任务,切断对话历史与答案的直接因果效应,添加混杂因子[用户偏好] ...

  3. 『论文笔记』ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks!

    ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks! 文章目录 一 ...

  4. 『论文笔记』Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions

    Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 一句话总结 本文提出一个基 ...

  5. 『论文阅读』SIF:一种简单却难以打败的句子嵌入方法

      文献:A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS   在进行了词嵌入的研究后,我们往往会联想到这样一个问题:既然单词可以 ...

  6. 『 论文阅读』LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree

    17年8月LightGBM就开源了,那时候就开始尝试上手,不过更多还是在调参层面,在作者12月论文发表之后看了却一直没有总结,这几天想着一定要翻译下,自己也梳理下GBDT相关的算法. Abstract ...

  7. 『ML笔记』深入浅出字典学习1(Dictionary Learning)

    目录 一.预备知识 二.字典学习以及稀疏表示的概要 2.1.我们为什么需要字典学习? 2.2.我们为什么需要稀疏表示? 三.下一节 参考文献 一.预备知识 稀疏向量:假设向量中的元素绝大部分为零元素, ...

  8. 『ML笔记』HOG特征提取原理详解+代码

    HOG特征提取原理详解+代码! 文章目录 一. HOG特征介绍 二. HOG算法具体流程+代码 2.1. 图像灰度化和gamma矫正 2.2. 计算图像像素梯度图 2.3. 在8×8的网格中计算梯度直 ...

  9. 『ML笔记』梯度下降法和随机梯度下降法和小批量梯度对比

    目录 1. 梯度下降法(gradient descent) 2. 随机梯度下降(Stochastic gradient descent) 3. 小批量梯度下降(Mini-Batch gradient ...

  10. 『矩阵论笔记』详解最小二乘法(矩阵形式求导)+Python实战

    详解最小二乘法(矩阵形式求导)+Python实战! 文章目录 一. 矩阵的迹 1.1. 转置矩阵 1.2. 迹的定义 1.3. 七大定理 二. 最小二乘法 2.1. 求解介绍 2.2. 另一角度 2. ...

最新文章

  1. Windows自带certutil工具校验用法
  2. 刚安装的python如何使用-Anaconda介绍、安装及使用教程
  3. 自定义 ArrayList
  4. 八款常用的 Python GUI 开发框架推荐
  5. 【编程题目】复杂链表的复制☆
  6. 解决在待办任务菜单中都会抛出异常,由于definitionId=undefined导致的问题
  7. 猎豹浏览器怎么收藏网页 网页收藏方法简述
  8. 面试算法基础及编程 第四弹 (字符串、数值类、或其他常见相关)
  9. SQL SERVER 用户自定义函数如何定义.
  10. C#序列化与反序列化方式简单总结
  11. UGUI LongText
  12. 永中Office用户使用中常见问题与解答
  13. 高分辨率图像剪切——目标检测
  14. 小米手机无需刷入Recovery获取Root权限,卡刷包payload.bin提取boot.img文件
  15. 迅雷欲缔造互联网“视频梦工厂”
  16. AI2022:如何在 Illustrator 中创建色板?
  17. win10 打开控制面板 和 启用 Telnet 的方法
  18. NMOS管与PMOS管区别
  19. 华为交换机traffic策略设置
  20. 铁通用户,宽带测速很快,可是上网很慢的解决办法

热门文章

  1. Winform 连接打印机
  2. 香港爱情电影二十四经
  3. SEO优化 关键词部署策略
  4. uniapp-App支付宝授权小记
  5. 计算机课程培养关键能力,大学生计算机应加强自学能力培养
  6. 【Android P】 JobScheduler服务源码解析(二) ——框架解析
  7. 设置linux服务器时间自动同步
  8. python实现whois查询_Python 工具whois查询
  9. 【职业规划】该如何选择职业方向?性能?自动化?测开?学习选择python、java?
  10. 使用高德地图获取拍照图片地理位置