OpenKG地址:http://openkg.cn/dataset/melbench

GitHub地址:https://github.com/seukgcode/MELBench

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:东南大学(汪鹏、周星辰、邓臻凯、李国正、谢佳锋、吴江恒)


1. 摘要

多模态实体链接是多模态数据处理的基础任务之一,旨在将多模态数据中的实体链接到知识图谱中,在多模态数据理解、多模态知识图谱、多模态问答中具有广泛应用意义。然而,目前开源和能重现的多模态实体链接数据集还很少,一定程度上制约着相关工作的研究。

东南大学团队发布的多模态实体链接数据集MELBench包含3个任务:Weibo-MEL、Wikidata-MEL和Richpedia-MEL数据集,数据源分别包含来自社交媒体、百科知识和多模态知识图谱等领域,分别包含2.5万、1.8万和1.7万条多模态实体链接数据,每条数据均为人工标注,包含与目标实体相关的文本信息和视觉信息。该数据集能够为多模态实体链接(MEL)任务提供基准数据支持。

2. 多模态实体链接(MEL)

实体链接(EL)是将实体描述映射到知识图谱中相应实体的任务,在语义检索、推荐系统和问答系统等任务中起到重要的作用。现有的方法主要利用文本信息进行实体链接。然而,一方面,通过简短粗略的文本获取相应的实体具有很大的挑战性。另一方面,在现实世界的数据中,例如社交媒体、百科知识和多模态知识图谱等领域数据,通常同时使用文本和视觉信息描述相应实体。因此,有必要结合多模态信息解决EL问题,这一任务也被称为多模态实体链接(MEL)。

3. 数据集构建

为了构建大规模MEL数据集,促进相关研究,我们提出了一种MEL数据集构建方法,包括五个阶段,如下图所示。在多模态信息抽取阶段,我们选择不同的现实世界多模态数据源,提取文本和视觉信息;在提及抽取阶段,我们从文本信息中获取提及,并保留可能存在相应实体的提及;在实体抽取阶段,我们用上一阶段保留的提及查询知识图谱,收集相关实体列表,并保留提及相应的实体;在三元组构建阶段,我们将相应的提及和实体合并为提及-实体对,并将它们与多模态信息抽取阶段获取的文本和视觉信息合并为MEL三元组;最后,在数据集构建阶段,我们按照7:1:2的比例,将数据分为训练集,验证集和测试集。

4. 数据集详情

基于上述的MEL数据集构建方法,我们完成了三个MEL数据集构建:

  • Weibo-MEL 采用微博作为多模态数据源,并采用 CN-DBpedia 作为知识图谱。数据集包含 25,602 个样本,对应 31,516 个提及-实体对。

  • Wikidata-MEL 采用 Wikidata 和 Wikipedia 作为多模态数据源,并采用 Wikidata 作为知识图谱。数据集包含 18,880 个样本,对应 22,534 个提及-实体对。

  • Richpedia-MEL 采用 Richpedia 和 Wikipedia 作为多模态数据源,同样采用 Wikidata 作为知识图谱。数据集包含 17,806 个样本,对应 20,752 个提及-实体对。

此外,我们统计了数据集的文本长度和提及数量,如下图所示,三个数据集具有较大差异,体现了不同领域的数据特征。

5. 致谢

数据集由东南大学KGCODE实验室的周星辰、邓臻凯、李国正、谢佳锋、吴江恒等同学完成,指导老师汪鹏。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

开源开放 | 多模态实体链接数据集MELBench(CCKS2021)相关推荐

  1. 开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/csdqa 开源地址:http://zscl.xjtudlc.com:888/CSDQA/ 开放许可协议:CC BY-SA 4.0 ...

  2. 开源开放 | 多模态地球科学知识图谱GAKG

    OpenKG地址:http://openkg.cn/dataset/gakg 网站地址:https://gakg.acemap.info/ 论文地址:https://dl.acm.org/doi/10 ...

  3. 【AdaSeq基础】30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集

    简介 命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文.多语言.多模态NER数据集介绍. 相关数据详情可以访问链接: https://github.com ...

  4. Facebook提出生成式实体链接、文档检索,大幅刷新SOTA!

    文 | 花小花Posy 导言 最近ICLR的rebutal 前后分数对比出来了,很多评委都改了分数,有改多的,也有改少的.今天给大家介绍的这篇高分论文竟然在rebuttal前后都保持高分,证明评委们对 ...

  5. CHOLAN:一种模块化实体链接方法

    CHOLAN: A Modular Approach for Neural Entity Linking on Wikipedia and Wikidata 论文链接:https://arxiv.or ...

  6. 开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE(CCKS2021)...

    OpenKG地址:http://openkg.cn/dataset/c-clue GitHub地址:https://github.com/jizijing/C-CLUE 网站地址:http://152 ...

  7. 开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/k-zsl GitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL ...

  8. 开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/mooper 头歌平台:https://www.educoder.net/ch/rest 开放许可协议:CC BY-SA 4.0 ( ...

  9. 开源开放 | 中药说明书实体识别数据集TCM-NER

    OpenKG地址:http://openkg.cn/dataset/tcm-ner 阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId ...

最新文章

  1. [微信小程序]上传单张和多张图片
  2. java修改状态码_JavaWeb-用过滤器修改请求的返回状态码
  3. fhqtreap的学习笔记
  4. 5 怎么上下分屏_oppo的最新手机reno5系列怎么样
  5. 点击右侧导航栏,实现iframe嵌入子页面中div,滑动到最上面
  6. Python在信号与系统(1)——Hilbert兑换,Hilbert在国家统计局的包络检测应用,FIR_LPF滤波器设计,格鲁吉亚也迫使高FM(PM)调制...
  7. 【转载】徐小平techCrunch演讲:创业者要找到跟你同生共死的伙伴!
  8. erp采购总监个人总结_erp采购总监总结.docx
  9. linux下播放wma格式,Ubuntu 20.04中使Rhythmbox支持WMA格式文件播放
  10. php更改二维数组的键,学习猿地-php如何修改二维数组的键名
  11. C++高阶 每个对象都有一个this指针
  12. python超链接程序,python超链接
  13. 扯淡: 什么是团队精神 管理 沟通
  14. Js中Date日期的使用(加一天,加一个月,获取0时0分0秒,23时59分59秒等)
  15. 【linux kernel】一文总结initramfs的使用
  16. 五、Web应用开发模式
  17. 陪伴是最长情的告白:微软“海军陆战队”CSE揭秘
  18. Pandas 如何保存较大文件。‘ValueError: This sheet is too large! Your sheet size is: 16388602, 3 Max sheet size
  19. 复制文本功能兼容 微信ios 火狐浏览器
  20. 马未都:人的一生,都是有命数的

热门文章

  1. Sharepoint学习笔记—习题系列--70-573习题解析 -(Q40-Q44)
  2. linux下修改max_user_processes和open_file的最大值
  3. 拆解前苏联产荧光数码管计算器,内部电路结构彪悍!
  4. c语言 修改密码源码,基于51单片机串口密码修改设计-(源码+电路图)
  5. my eclipse 类似dreamweaver编辑html,8款替代Dreamweaver的开源网页开发工具
  6. ftp linux包,图文详解Ubuntu搭建Ftp服务器的方法(包成功)
  7. http 请求默认时间_JMeter接口测试之HTTP请求默认值
  8. windows 禁用ipv6服务_Win10如何关闭IPV6?Win10禁用IPv6的方法
  9. 打印机更换感光鼓单元k_干货,激光打印机常见故障维修方法总结
  10. 智慧交通day04-特定目标车辆追踪03:siamese在目标跟踪中的应用-SiamFC(2016)