华为诺亚方舟 | 构建1亿组图文对中文多模态数据集
每天给你送来NLP技术干货!
行早 发自 凹非寺
量子位 | 公众号 QbitAI
华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空。
这个新发布的数据集不仅规模大——包含1亿组图文对,而且质量也很高。
所有图像都是筛选过的,长宽都在200个像素以上,比例从1/3-3不等。
而和图像对应的文本也根据其语言、长度和频率进行了过滤,隐私和敏感词也都考虑在内。
例如这一组数据集中的例子,内容还相当新,像进门扫码登记,社区疫苗接种的防疫内容都有。
这一波可以说是填上了大规模中文多模态数据集的缺口。
悟空数据集
自一年前OpenAI的CLIP+Dall·E组合开启新一轮多模态学习浪潮以来,算上后续的ALIGN和FILIP,都在视觉语言预训练(VLP)领域表现优异。
世界范围内的成功离不开大规模数据集的支持,但中文开源数据方面,有是有,规模大的不多。
有了“悟空”数据集之后,就可以支持更多预训练模型用于下游任务。
数据集之外,团队还附赠了一款基本模型,参考了流行的文本图像双编码器架构:
其中视觉标记和文本标记作为输入。然后,将两种模式的输入标记连接起来,并用位置嵌入来显示标记位置。
有意思的一点是,这里的图像编码器是从英文数据集上训练的,上面预加载并锁定了从外部模型中训练的英文数据集中的权重。
但是仍然可以中文文本进行跨模态预训练,在下游任务中也表现得很好。
除此之外,华为诺亚还提供了不同下游任务的基准测试。
例如零样本图像分类,下图中除了WukongViT-500M,其他的悟空模型变体都是在这个一亿的数据库上训练的:
再比如在图像检索文本和文本检索图像这两个任务上,在五个不同的数据集上的测试结果如下:
而这也证明了将在英语数据集上预训练的图像编码器应用于中文多模态预训练的良好效果。未来也可能会探索更多的解决方案,利用悟空数据集训练多语言跨模态模型。
目前悟空数据集在官网即可下载,赶快用起来吧~
数据集地址:
https://wukong-dataset.github.io/wukong-dataset/benchmark.html
论文地址:
https://arxiv.org/abs/2202.06767
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套! 后台回复【五件套】
下载二:南大模式识别PPT 后台回复【南大模式识别】
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!
华为诺亚方舟 | 构建1亿组图文对中文多模态数据集相关推荐
- 华为诺亚方舟开源预训练模型“哪吒”,4项任务均达到SOTA
出品 | AI科技大本营(ID:rgznai100) BERT之后,新的预训练语言模型XLnet.RoBERTa.ERNIE不断推出,这次,华为诺亚方舟实验室开源了基于BERT的中文预训练语言模型NE ...
- 华为诺亚方舟实验室招聘AI研究实习生
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->2024届校招求职交流群 华为诺亚方舟实验室招聘AI研究实习生 简介: 华为诺亚方舟实验 ...
- 1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室...
行早 发自 凹非寺 量子位 | 公众号 QbitAI 华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空. 这个新发布的数据集不仅规模大--包含1亿组图文对,而且质量也很高. 所有图像都是筛选过 ...
- 华为诺亚方舟实验室(智能工业视觉组)招聘实习生
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 华为诺亚方舟实验室(智能工业视觉组)招聘实习生 公司介绍 诺亚方舟实验室,是华为的AI能力研究阿中心,立足于 ...
- 刘群:华为诺亚方舟NLP预训练模型工作的研究与应用 | AI ProCon 2019
演讲嘉宾 | 刘群(华为诺亚方舟实验首席科学家) 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 预训练语言模型对自然语言处理领域产生了非常大的影响,在近期由CSDN主办的 ...
- 华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
选自arXiv 作者:Jiaxi Gu等 机器之心编译 编辑:Juniper 华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 --「悟空」,并在此基础上对不同的多模态预训练模型进行基准 ...
- 华为诺亚方舟实验室—推荐系统中的前沿技术研究与落地报告
来源:专知 [导读]9月6-7日,2019中国AI开发者大会(AI ProCon 2019) 在北京拉开帷幕.本次大会由新一代人工智能产业技术创新战略联盟(AITISA)指导,鹏城实验室.北京智源人工 ...
- 新突破!华为诺亚开源首个亿级中文多模态数据集-悟空!
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Jiaxi Gu等 转载自:机器之心 | 编辑:Juniper 华为诺亚方舟实验室的研究者提出了一 ...
- 华为诺亚方舟郝建业:深度强化学习的三大挑战
智源导读:近年来,深度强化学习技术在游戏人工智能领域.推荐系统.搜索系统.网络优化.供应链优化.自动驾驶和芯片设计等领域取得了大量成果. 华为诺亚方舟决策与推理实验室郝建业近期在北京智源大会上发表了题 ...
- 华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章
华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章 本文作者:王金许 2017-07-26 19:29 导语:深度学习(神经处理)给自然语言处理带来了革命性的进步,基于深度学习的机器翻译 ...
最新文章
- 中国移动这个编程大赛来了!
- 气计算,人工智能高度发达的未来世界
- chromedriver与chrome版本映射表(更新至v2.30)
- random.choice()使用
- [转载]配置unp.h头文件环境
- Java多态的成员特点及优缺点详解
- 爬虫 spider12——暂停小总结_爬虫流程_微服务架构流程
- 那些方式可以合并php数组,php中数组合并的几种方法
- 前端学习(544):node的全局模块
- Python网络请求库Requests,妈妈再也不会担心我的网络请求了(二)
- 【CentOS】Centos下pip的安装
- 渗透测试专业人员使用的11种工具
- matlab转置与共轭转置
- IE浏览器打不开网页有什么解决的方法
- 四款亲试好用的PDF编辑器推荐,看看哪款最适合你
- 熊猫TV技术与直播技术相关
- python怎么降序输出结果_按降序打印Python
- android 记录打印文件
- 正态分布在数据分析中的应用
- Asterisk常用命令