开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/melbench
GitHub地址:https://github.com/seukgcode/MELBench
开放许可协议:CC BY-SA 4.0 (署名相似共享)
贡献者:东南大学(汪鹏、周星辰、邓臻凯、李国正、谢佳锋、吴江恒)
1. 摘要
多模态实体链接是多模态数据处理的基础任务之一,旨在将多模态数据中的实体链接到知识图谱中,在多模态数据理解、多模态知识图谱、多模态问答中具有广泛应用意义。然而,目前开源和能重现的多模态实体链接数据集还很少,一定程度上制约着相关工作的研究。
东南大学团队发布的多模态实体链接数据集MELBench包含3个任务:Weibo-MEL、Wikidata-MEL和Richpedia-MEL数据集,数据源分别包含来自社交媒体、百科知识和多模态知识图谱等领域,分别包含2.5万、1.8万和1.7万条多模态实体链接数据,每条数据均为人工标注,包含与目标实体相关的文本信息和视觉信息。该数据集能够为多模态实体链接(MEL)任务提供基准数据支持。
2. 多模态实体链接(MEL)
实体链接(EL)是将实体描述映射到知识图谱中相应实体的任务,在语义检索、推荐系统和问答系统等任务中起到重要的作用。现有的方法主要利用文本信息进行实体链接。然而,一方面,通过简短粗略的文本获取相应的实体具有很大的挑战性。另一方面,在现实世界的数据中,例如社交媒体、百科知识和多模态知识图谱等领域数据,通常同时使用文本和视觉信息描述相应实体。因此,有必要结合多模态信息解决EL问题,这一任务也被称为多模态实体链接(MEL)。
3. 数据集构建
为了构建大规模MEL数据集,促进相关研究,我们提出了一种MEL数据集构建方法,包括五个阶段,如下图所示。在多模态信息抽取阶段,我们选择不同的现实世界多模态数据源,提取文本和视觉信息;在提及抽取阶段,我们从文本信息中获取提及,并保留可能存在相应实体的提及;在实体抽取阶段,我们用上一阶段保留的提及查询知识图谱,收集相关实体列表,并保留提及相应的实体;在三元组构建阶段,我们将相应的提及和实体合并为提及-实体对,并将它们与多模态信息抽取阶段获取的文本和视觉信息合并为MEL三元组;最后,在数据集构建阶段,我们按照7:1:2的比例,将数据分为训练集,验证集和测试集。
4. 数据集详情
基于上述的MEL数据集构建方法,我们完成了三个MEL数据集构建:
Weibo-MEL 采用微博作为多模态数据源,并采用 CN-DBpedia 作为知识图谱。数据集包含 25,602 个样本,对应 31,516 个提及-实体对。
Wikidata-MEL 采用 Wikidata 和 Wikipedia 作为多模态数据源,并采用 Wikidata 作为知识图谱。数据集包含 18,880 个样本,对应 22,534 个提及-实体对。
Richpedia-MEL 采用 Richpedia 和 Wikipedia 作为多模态数据源,同样采用 Wikidata 作为知识图谱。数据集包含 17,806 个样本,对应 20,752 个提及-实体对。
此外,我们统计了数据集的文本长度和提及数量,如下图所示,三个数据集具有较大差异,体现了不同领域的数据特征。
5. 致谢
数据集由东南大学KGCODE实验室的周星辰、邓臻凯、李国正、谢佳锋、吴江恒等同学完成,指导老师汪鹏。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)相关推荐
- 开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/csdqa 开源地址:http://zscl.xjtudlc.com:888/CSDQA/ 开放许可协议:CC BY-SA 4.0 ...
- 开源开放 | 多模态地球科学知识图谱GAKG
OpenKG地址:http://openkg.cn/dataset/gakg 网站地址:https://gakg.acemap.info/ 论文地址:https://dl.acm.org/doi/10 ...
- 【AdaSeq基础】30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集
简介 命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文.多语言.多模态NER数据集介绍. 相关数据详情可以访问链接: https://github.com ...
- Facebook提出生成式实体链接、文档检索,大幅刷新SOTA!
文 | 花小花Posy 导言 最近ICLR的rebutal 前后分数对比出来了,很多评委都改了分数,有改多的,也有改少的.今天给大家介绍的这篇高分论文竟然在rebuttal前后都保持高分,证明评委们对 ...
- CHOLAN:一种模块化实体链接方法
CHOLAN: A Modular Approach for Neural Entity Linking on Wikipedia and Wikidata 论文链接:https://arxiv.or ...
- 开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE(CCKS2021)...
OpenKG地址:http://openkg.cn/dataset/c-clue GitHub地址:https://github.com/jizijing/C-CLUE 网站地址:http://152 ...
- 开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/k-zsl GitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL ...
- 开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/mooper 头歌平台:https://www.educoder.net/ch/rest 开放许可协议:CC BY-SA 4.0 ( ...
- 开源开放 | 中药说明书实体识别数据集TCM-NER
OpenKG地址:http://openkg.cn/dataset/tcm-ner 阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId ...
最新文章
- [微信小程序]上传单张和多张图片
- java修改状态码_JavaWeb-用过滤器修改请求的返回状态码
- fhqtreap的学习笔记
- 5 怎么上下分屏_oppo的最新手机reno5系列怎么样
- 点击右侧导航栏,实现iframe嵌入子页面中div,滑动到最上面
- Python在信号与系统(1)——Hilbert兑换,Hilbert在国家统计局的包络检测应用,FIR_LPF滤波器设计,格鲁吉亚也迫使高FM(PM)调制...
- 【转载】徐小平techCrunch演讲:创业者要找到跟你同生共死的伙伴!
- erp采购总监个人总结_erp采购总监总结.docx
- linux下播放wma格式,Ubuntu 20.04中使Rhythmbox支持WMA格式文件播放
- php更改二维数组的键,学习猿地-php如何修改二维数组的键名
- C++高阶 每个对象都有一个this指针
- python超链接程序,python超链接
- 扯淡: 什么是团队精神 管理 沟通
- Js中Date日期的使用(加一天,加一个月,获取0时0分0秒,23时59分59秒等)
- 【linux kernel】一文总结initramfs的使用
- 五、Web应用开发模式
- 陪伴是最长情的告白:微软“海军陆战队”CSE揭秘
- Pandas 如何保存较大文件。‘ValueError: This sheet is too large! Your sheet size is: 16388602, 3 Max sheet size
- 复制文本功能兼容 微信ios 火狐浏览器
- 马未都:人的一生,都是有命数的
热门文章
- Sharepoint学习笔记—习题系列--70-573习题解析 -(Q40-Q44)
- linux下修改max_user_processes和open_file的最大值
- 拆解前苏联产荧光数码管计算器,内部电路结构彪悍!
- c语言 修改密码源码,基于51单片机串口密码修改设计-(源码+电路图)
- my eclipse 类似dreamweaver编辑html,8款替代Dreamweaver的开源网页开发工具
- ftp linux包,图文详解Ubuntu搭建Ftp服务器的方法(包成功)
- http 请求默认时间_JMeter接口测试之HTTP请求默认值
- windows 禁用ipv6服务_Win10如何关闭IPV6?Win10禁用IPv6的方法
- 打印机更换感光鼓单元k_干货,激光打印机常见故障维修方法总结
- 智慧交通day04-特定目标车辆追踪03:siamese在目标跟踪中的应用-SiamFC(2016)