行早 发自 凹非寺
量子位 | 公众号 QbitAI

华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空。

这个新发布的数据集不仅规模大——包含1亿组图文对,而且质量也很高。

所有图像都是筛选过的,长宽都在200个像素以上,比例从1/3-3不等。

而和图像对应的文本也根据其语言、长度和频率进行了过滤,隐私和敏感词也都考虑在内。

例如这一组数据集中的例子,内容还相当新,像进门扫码登记,社区疫苗接种的防疫内容都有。

这一波可以说是填上了大规模中文多模态数据集的缺口。

悟空数据集

自一年前OpenAI的CLIP+Dall·E组合开启新一轮多模态学习浪潮以来,算上后续的ALIGN和FILIP,都在视觉语言预训练(VLP)领域表现优异。

世界范围内的成功离不开大规模数据集的支持,但中文开源数据方面,有是有,规模大的不多。

有了“悟空”数据集之后,就可以支持更多预训练模型用于下游任务。

数据集之外,团队还附赠了一款基本模型,参考了流行的文本图像双编码器架构:

其中视觉标记和文本标记作为输入。然后,将两种模式的输入标记连接起来,并用位置嵌入来显示标记位置。

有意思的一点是,这里的图像编码器是从英文数据集上训练的,上面预加载并锁定了从外部模型中训练的英文数据集中的权重。

但是仍然可以中文文本进行跨模态预训练,在下游任务中也表现得很好。

除此之外,华为诺亚还提供了不同下游任务的基准测试

例如零样本图像分类,下图中除了WukongViT-500M,其他的悟空模型变体都是在这个一亿的数据库上训练的:

再比如在图像检索文本和文本检索图像这两个任务上,在五个不同的数据集上的测试结果如下:

而这也证明了将在英语数据集上预训练的图像编码器应用于中文多模态预训练的良好效果。未来也可能会探索更多的解决方案,利用悟空数据集训练多语言跨模态模型。

目前悟空数据集在官网即可下载(链接在文末),赶快用起来吧~

数据集地址:
https://wukong-dataset.github.io/wukong-dataset/benchmark.html

论文地址:
https://arxiv.org/abs/2202.06767

1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室...相关推荐

  1. 为诺亚方舟实验室,1亿组图文对,填补中文开源多模态数据集空白

    一.1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室 华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空. 这个新发布的数据集不仅规模大--包含1亿组图文对,而 ...

  2. 华为诺亚方舟实验室(智能工业视觉组)招聘实习生

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 华为诺亚方舟实验室(智能工业视觉组)招聘实习生 公司介绍 诺亚方舟实验室,是华为的AI能力研究阿中心,立足于 ...

  3. 华为诺亚方舟开源预训练模型“哪吒”,4项任务均达到SOTA

    出品 | AI科技大本营(ID:rgznai100) BERT之后,新的预训练语言模型XLnet.RoBERTa.ERNIE不断推出,这次,华为诺亚方舟实验室开源了基于BERT的中文预训练语言模型NE ...

  4. 华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :华为,专知 [人工智能资源 ...

  5. 华为诺亚方舟开源哪吒、TinyBERT模型,可直接下载使用

    点击上方"视学算法",选择"星标"公众号 重磅干货,第一时间送达 来源:机器之心 华为诺亚方舟实验室开源了一批优秀预训练语言模型,性能更好.使用更方便. 昨日, ...

  6. 内存占用少,计算速度快!华为诺亚方舟Lab开源即插即用的多用卷积核(NeurIPS 2018)...

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自诺亚实验室(ID:Noah_ark_lab). 华为诺亚方舟实验室开源了一种即插即用的卷积核,该项工作发表在NeurIPS 2018上,论文题 ...

  7. 超参数调优河伯、组合优化器CompBO,华为诺亚开源贝叶斯优化库

    视学算法报道 编辑:陈萍.杜伟 华为诺亚开源了一个贝叶斯优化的库,该库包含三个部分:河伯.T-LBO.CompBO. 贝叶斯优化可以说是一种黑盒优化算法,该算法用于求解表达式未知函数的极值问题.因其具 ...

  8. 华为诺亚开源贝叶斯优化库:超参数调优河伯、组合优化器CompBO

    ©作者 | 陈萍.杜伟 来源 | 机器之心 华为诺亚开源了一个贝叶斯优化的库,该库包含三个部分:河伯.T-LBO.CompBO. 贝叶斯优化可以说是一种黑盒优化算法,该算法用于求解表达式未知函数的极值 ...

  9. 华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白

    选自arXiv 作者:Jiaxi Gu等 机器之心编译 编辑:Juniper 华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 --「悟空」,并在此基础上对不同的多模态预训练模型进行基准 ...

最新文章

  1. [新手学3D]Width 和 Pitch(Direct3D 9)
  2. java中判断Object对象类型
  3. 共享没有权限访问权限_如何与家人共享SmartThings访问权限
  4. luoguP1742 最小圆覆盖
  5. 三相滤波器怎么接线_数字滤波器设计的一般套路
  6. 在Chrome+Visual Studio中调试asp.net程序很慢的问题(Firefox也有类似问题)
  7. DOTA 2血虐人类的OpenAI,原来靠的是作弊?
  8. 用LDA在R中聚类四本小说
  9. [BZOJ1492][NOI2007]货币兑换Cash(斜率优化+CDQ分治)
  10. oracle的解析器,Oracle中sql量化分析工具
  11. 怎么屏蔽计算机集成声卡,win10系统主板集成声卡关闭的设置方案
  12. 企查查访问超频怎么办_Springboot与Selenium合体变蜘蛛爬企查查
  13. 05.抽象队列同步器AQS应用之Lock详解
  14. 桌面计算机图标无响应,win7系统电脑鼠标点击桌面图标没反应怎么办【图文】...
  15. 安卓轻量级线上APM监测
  16. javase笔记基础篇
  17. 什么是软件生命周期模型?试比较瀑布模型、快速原型模型、增量模型和螺旋模型的优缺点,说明每种模型的使用范围。
  18. data.frame中的NA值怎么替换成0 把na变为0 把na变为想要的数 改变na 是否为na is.na()是否为null is.null() is.null() 删除去掉NA的行
  19. 有一种数叫回文数,正读和反读都一样,如12321便是一个回文数。编写一个程序,从命令行得到一个整数,判断该数是不是回文数。
  20. 北航3系 (自动化) 控制科学与工程 保研经历

热门文章

  1. 为什么`[`比`子集更好?
  2. 编译/链接过程如何工作?
  3. 确定整数的平方根是否为整数的最快方法
  4. Install zabbix 2.2 + PostgreSQL + nginx + php on CentOS 6.x x64
  5. Redis Server Memory Optimization
  6. AJAX是一门艺术: XHR篇
  7. missing required icon file.图标错误解决
  8. shell第一天,添加普通帐号.
  9. VS2005在编译项目时找不到Ceplatform和PLATFORMDEFINE变量
  10. 指尖触碰样书,梦想照进现实「博客出书的故事③」