OpenKG地址:http://openkg.cn/dataset/csdqa

开源地址:http://zscl.xjtudlc.com:888/CSDQA/

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:西安交通大学(王绍伟、张玲玲、杨祎、胡欣、秦涛、魏笔凡、刘均)


1. 摘要

CSDQA (Computer Science Diagram Question Answering)数据集是计算机科学领域几何图形类示意图问答数据集,由陕西省天地网技术重点实验室贡献。本数据集示意图来自教科书、百科、博客等教育场景,包含十二个类别共计1294张示意图,3494个问答对以及超过20000条对象信息标注。该数据集能为示意图问答等相关研究提供良好的数据支持。

2. 示意图

示意图明确表达某个特定主题或概念,传递可推理的规则或逻辑信息,使用抽象的图形化符号而不是真实图片来呈现元素的一种表示。相比自然图像,示意图不包含阴影、纹理、背景等,视觉要素表达更加凝练简洁,包含丰富的信息。根据构成要素,示意图可划分为两类。已有研究主要集中于第一类:来自生物学、地理学等自然学科示意图,其对象主要由抽象化的动物、植物等事物构成,表达方式与自然图类似。本数据集聚焦于第二类:几何图形类示意图,其对象主要由圆形、矩形、箭头等符号组成,如图1所示。该类示意图抽象化程度更高,对象表达方式多样,包含复杂的逻辑结构,例如二叉树中根节点与叶节点间具有父子拓扑关系。理解该类示意图具有极大挑战,也是实现智慧教育等应用的重要基础。

图1 CSDQA全类别示意图样例

3. 数据集

示意图来源稀缺,为了收集到高质量的数据,CSDQA采取了多来源、半自动化的收集方式。针对教科书、百科等来源进行人工收集,针对网络爬取数据构建过滤器滤除低质量样本。

为了适应示意图多样的表达方式和复杂的逻辑,我们设计了多维度的数据集标注规则,包含:全局属性-对象属性-关系属性,如图2所示。其中全局属性宏观描述了示意图所表达的知识;后两者则更细粒度描述示意图中的对象和对象间的关系信息。

图2 CSDQA示意图属性标注样例

示意图问答任务是指:计算机在给定一张示意图和相关的知识文本内容下回答自然语言问题。在数据集中,知识文本是以是示意图类别为关键字爬取的维基百科相关信息。我们共设计了两种难度的问题。简单问题:计算机仅需要一次推理即可给出答案;复杂问题:计算机需要两次推理才能给出答案,在所有标注问题中,复杂问题所占比为22.98%。形式上,标注的问题还可划分为四选一问题和判断题,示例如图3所示。

图3 CSDQA示意图问答标注样例

相较于已有的示意图数据集,CSDQA的特点在于:

(1)CSDQA是首个包含高质量几何图形类示意图的数据集,填补了示意图数据集在高等教育领域的空白。

(2)CSDQA包含细粒度的标注信息和区分难度及类别的问答对,可适应多样化的示意图理解相关任务。

4. 结语及致谢

为推进课程领域示意图研究,我们提出了示意图问答任务,并为社区贡献了一个人工标注的计算机科学领域示意图问答数据集。在此,感谢西安交通大学刘均教授、张玲玲老师在数据集构建方案中提供的宝贵意见,感谢西安交通大学计算机科学与技术学院的杨祎、吴文俊、胡欣等同学在数据标注过程中提供的支持。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)相关推荐

  1. 开源开放 | 多模态实体链接数据集MELBench(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/melbench GitHub地址:https://github.com/seukgcode/MELBench 开放许可协议:CC ...

  2. 【报名开启】CCKS 2022教科书示意图问答任务

    赛题背景 示意图是一种高度抽象的知识表达载体,常由矩形.圆形等几何形状和箭头.折线等逻辑符号组成,广泛被应用于教科书.百科.知识博客等教育场景.在上述场景中,学习者常通过视觉问答的形式来判断对知识点的 ...

  3. 三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03

    PaperWeekly 是一个 AI 学术分享社区.这里聚集了大批一线 AI 学者,他们用精炼妙语推荐各自发现的优质论文.点击本文底部的「阅读原文」即刻加入社区,创建属于你的论文集. 这里是第 3 期 ...

  4. 开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/mooper 头歌平台:https://www.educoder.net/ch/rest 开放许可协议:CC BY-SA 4.0 ( ...

  5. 开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/rcwi-dataset 开放许可协议:CC BY-SA 4.0 (署名相似共享) 贡献者:北京语言大学(阙孟溪.张宇飞.于东) 1 ...

  6. 开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/k-zsl GitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL ...

  7. 开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE(CCKS2021)...

    OpenKG地址:http://openkg.cn/dataset/c-clue GitHub地址:https://github.com/jizijing/C-CLUE 网站地址:http://152 ...

  8. 论文浅尝 | XQA:一个跨语言开放域问答数据集

    论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生. Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A ...

  9. ACL2022 | 面向中文真实搜索场景的开放域文档视觉问答数据集

    每天给你送来NLP技术干货! 论文名称:DuReadervis: A Chinese Dataset for Open-domain Document Visual Question Answerin ...

最新文章

  1. 中文 Markdown 编写格式规范的命令行工具 lint-md
  2. 使用Minify合并css和js减少http请求
  3. Objective-C 执行外部命令
  4. FMPEG结构体分析:AVStream
  5. oracle count最快的方法,Oracle count哪种写法更快
  6. Verilog UDP(User Defined Primitives)
  7. 【转】xargs命令详解,xargs与管道的区别
  8. [Leedcode][JAVA][面试题 08.11][硬币][动态规划]
  9. 真是虚惊一场的i_like_cpp
  10. win8 打开计算机配置,win8.1 更改电脑配置无法使用
  11. IT人看《国富论》系列:第一篇之第二章:论分工的原由。分工其实是人类利己倾向的结果...
  12. Java函数式编程-三更草堂-学习笔记
  13. 今天买了个黑莓7290
  14. win10上安装ubunt18双系统过程中出现mmx64.efi not found问题
  15. chai.js------使用
  16. 3.ARMv7-M exception model(1)
  17. ftpClient读取文件流的偶尔会是空文件
  18. 计算机网络 网际控制报文协议 ICMP
  19. Java库:Jansi - 彩色日志输出体验
  20. .net 5 windows 系统服务 workserver

热门文章

  1. unix dos mac 文件格式不同导致问题
  2. Android uevent
  3. 如果访问云服务器上的文件,如果访问云服务器上的文件
  4. 能运行shell吗_terminal, shell, bash, zsh
  5. JavaScript高级之ES5 中的新增方法
  6. Chapter2-2_Voice Conversion(CycleGAN and StarGAN)
  7. LeetCode 1751. 最多可以参加的会议数目 II(DP + 二分查找)
  8. LeetCode 1671. 得到山形数组的最少删除次数(最长上升子序DP nlogn)
  9. [Hands On ML] 7. 集成学习和随机森林
  10. LeetCode 1061. 按字典序排列最小的等效字符串(并查集)