知识图谱之NELL数据集简介
1 NELL数据集简介
来源:NELL
1.1 目录结构
- train_tasks.json
- dev_tasks.json
- test_tasks.json
- ent2ids
- relation2ids
- path_graph
- e1rel_e2.json
- rel2candidates.json
1.2 对应文件的解释
- 训练集:每个关系所在的三元组的数量在50到500之间 51个关系
- 验证集:每个关系所在的三元组的数量在50到500之间 5个关系
- 测试集:每个关系所在的三元组的数量在50到500之间 11个关系
- 所有实体对应id
- 除了训练集、验证集和测试集所有关系的关系所对应的id
- 除了训练集、验证集和测试集所有关系的关系所包含的三元组
- 存在于训练集、验证集和测试集中的所有关系对应的正确三元组
- 存在于训练集、验证集和测试集中的所有关系对应候选实体(根据实体类型的约束得到的)
1.3 数据探索
读取文件
train_tasks = json.load(open("FAAN/NELL/train_tasks.json")) print(len(train_tasks)) # 51ent2id = json.load(open('FAAN/NELL/ent2ids')) print(len(ent2id)) # 68544
2 Wiki数据集简介
来源:Wiki
未完待续~~~
知识图谱之NELL数据集简介相关推荐
- 知识图谱构建之数据集分析
概要 知识图谱是近些年比较热门的一项技术,能够应用于人工智能的多个领域.笔者近期项目是有关知识图谱项目的,也是第一次接触,特将自己学习的内容做个分析. 我们知道原始知识图谱数据集一般是一些rdf.tt ...
- 知识图谱:Konwledge Graph简介
一.概念 Konwledge Graph来源于2012年谷歌提出的,用于增强其搜索引擎功能的知识库. 本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述 ...
- 知识图谱表示 | TransE原理简介与代码解读
表示学习-TransE 原理介绍 核心理念 在平面直角坐标系中,向量表示三元组知识(h,r,t)(h,r,t)(h,r,t).其中hhh表示的是头实体的向量表示:rrr表示的是关系的向量表示:ttt指 ...
- DiaKG:用于构建医学知识图谱的糖尿病标注数据集【命名实体识别(NER)和关系抽取(RE)】
原文:DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction 作者: Dejie Chang1, M ...
- NeurIPS 2020 | 面向张量分解知识图谱补全的对偶诱导正则
简介 近年来,张量分解模型凭借模型简洁.计算速度快等优点在知识图谱补全任务上取得了令人瞩目的成就.但是,这些模型较易受到过拟合的影响,在性能上通常落后于其他类型的模型.为解决过拟合问题,包括 L2 正 ...
- 知识图谱入门视频(三)
学习内容 小象学院 b站 第三章 [其实后面的方法学习只是一个框架式的学习,并不明白具体的操作] 链接 问题: 知识图谱究竟是什么? 可以看看开放知识图谱 其实就是将我们的语言拆分转换为符号表达,之后 ...
- 大规模知识图谱预训练模型及电商应用
点击上方蓝字关注我们 大规模知识图谱预训练模型及电商应用 陈华钧1,2, 张文3, 黄志文4, 叶橄强1, 文博1, 张伟2,4 1 浙江大学计算机科学与技术学院,浙江 杭州 310007 2 阿里巴 ...
- 知识图谱开源开放及生态 | 7月12日TF65
本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学.南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱.知识图谱开源工具等所面临的机遇和挑战,并进一步了解知识图谱开放和开源工具构建的应用 ...
- 会议交流 | 知识图谱开源开放及生态——7月12日TF65
转载公众号 | 中国计算机学会 本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学.南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱.知识图谱开源工具等所面临的机遇和挑战,并进一步了解 ...
最新文章
- 再放QQ微博邀请码(2)
- 分治习题--九章算法培训课第三章笔记
- 谈谈java的线程池(创建、机制)
- yii2设置session时间_关于 Swoft 2.0 版本用 Redis 存储 session 时配置问题
- fianl属性 java_在Java中使用Final关键字可以提高性能吗?
- 【每日一题】8月28日题目精讲 编号
- jedis jedispool Redistemplate
- 信息学奥赛一本通 1184 | 1934:【06NOIP普及组】明明的随机数 | OpenJudge NOI 1.10 09 | 洛谷 P1059 [NOIP2006 普及组] 明明的随机数
- SQL Server 2005混合模式登录配置
- 用selenium IDE编写自动化测试脚本
- python-爬取东方财富网期货市场大商所数据
- HEU 2010 France '98
- 基于ssm手机供应商管理系统
- 屏蔽常见垃圾蜘蛛和扫描工具的两种办法
- Android天气预报项目
- Erlang公历转农历
- Blurry 高斯模糊库的使用
- 动漫推荐之境界的彼方
- 如何将base64转化为图片
- 如何开发一款ios应用程序