1 NELL数据集简介

来源:NELL

1.1 目录结构

  1. train_tasks.json
  2. dev_tasks.json
  3. test_tasks.json
  4. ent2ids
  5. relation2ids
  6. path_graph
  7. e1rel_e2.json
  8. rel2candidates.json

1.2 对应文件的解释

  1. 训练集:每个关系所在的三元组的数量在50到500之间 51个关系
  2. 验证集:每个关系所在的三元组的数量在50到500之间 5个关系
  3. 测试集:每个关系所在的三元组的数量在50到500之间 11个关系
  4. 所有实体对应id
  5. 除了训练集、验证集和测试集所有关系的关系所对应的id
  6. 除了训练集、验证集和测试集所有关系的关系所包含的三元组
  7. 存在于训练集、验证集和测试集中的所有关系对应的正确三元组
  8. 存在于训练集、验证集和测试集中的所有关系对应候选实体(根据实体类型的约束得到的)

1.3 数据探索

  • 读取文件

    train_tasks = json.load(open("FAAN/NELL/train_tasks.json"))
    print(len(train_tasks))   # 51ent2id = json.load(open('FAAN/NELL/ent2ids'))
    print(len(ent2id))        # 68544
    

2 Wiki数据集简介

来源:Wiki

未完待续~~~

知识图谱之NELL数据集简介相关推荐

  1. 知识图谱构建之数据集分析

    概要 知识图谱是近些年比较热门的一项技术,能够应用于人工智能的多个领域.笔者近期项目是有关知识图谱项目的,也是第一次接触,特将自己学习的内容做个分析. 我们知道原始知识图谱数据集一般是一些rdf.tt ...

  2. 知识图谱:Konwledge Graph简介

    一.概念 Konwledge Graph来源于2012年谷歌提出的,用于增强其搜索引擎功能的知识库. 本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述 ...

  3. 知识图谱表示 | TransE原理简介与代码解读

    表示学习-TransE 原理介绍 核心理念 在平面直角坐标系中,向量表示三元组知识(h,r,t)(h,r,t)(h,r,t).其中hhh表示的是头实体的向量表示:rrr表示的是关系的向量表示:ttt指 ...

  4. DiaKG:用于构建医学知识图谱的糖尿病标注数据集【命名实体识别(NER)和关系抽取(RE)】

    原文:DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction 作者: Dejie Chang1, M ...

  5. ​NeurIPS 2020 | 面向张量分解知识图谱补全的对偶诱导正则

    简介 近年来,张量分解模型凭借模型简洁.计算速度快等优点在知识图谱补全任务上取得了令人瞩目的成就.但是,这些模型较易受到过拟合的影响,在性能上通常落后于其他类型的模型.为解决过拟合问题,包括 L2 正 ...

  6. 知识图谱入门视频(三)

    学习内容 小象学院 b站 第三章 [其实后面的方法学习只是一个框架式的学习,并不明白具体的操作] 链接 问题: 知识图谱究竟是什么? 可以看看开放知识图谱 其实就是将我们的语言拆分转换为符号表达,之后 ...

  7. 大规模知识图谱预训练模型及电商应用

    点击上方蓝字关注我们 大规模知识图谱预训练模型及电商应用 陈华钧1,2, 张文3, 黄志文4, 叶橄强1, 文博1, 张伟2,4 1 浙江大学计算机科学与技术学院,浙江 杭州 310007 2 阿里巴 ...

  8. 知识图谱开源开放及生态 | 7月12日TF65

    本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学.南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱.知识图谱开源工具等所面临的机遇和挑战,并进一步了解知识图谱开放和开源工具构建的应用 ...

  9. 会议交流 | 知识图谱开源开放及生态——7月12日TF65

    转载公众号 | 中国计算机学会 本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学.南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱.知识图谱开源工具等所面临的机遇和挑战,并进一步了解 ...

最新文章

  1. 再放QQ微博邀请码(2)
  2. 分治习题--九章算法培训课第三章笔记
  3. 谈谈java的线程池(创建、机制)
  4. yii2设置session时间_关于 Swoft 2.0 版本用 Redis 存储 session 时配置问题
  5. fianl属性 java_在Java中使用Final关键字可以提高性能吗?
  6. 【每日一题】8月28日题目精讲 编号
  7. jedis jedispool Redistemplate
  8. 信息学奥赛一本通 1184 | 1934:【06NOIP普及组】明明的随机数 | OpenJudge NOI 1.10 09 | 洛谷 P1059 [NOIP2006 普及组] 明明的随机数
  9. SQL Server 2005混合模式登录配置
  10. 用selenium IDE编写自动化测试脚本
  11. python-爬取东方财富网期货市场大商所数据
  12. HEU 2010 France '98
  13. 基于ssm手机供应商管理系统
  14. 屏蔽常见垃圾蜘蛛和扫描工具的两种办法
  15. Android天气预报项目
  16. Erlang公历转农历
  17. Blurry 高斯模糊库的使用
  18. 动漫推荐之境界的彼方
  19. 如何将base64转化为图片
  20. 如何开发一款ios应用程序

热门文章

  1. 中国彩妆行业营销现状分析与投资机会研究报告2022版
  2. 【机器学习】之 主成分分析PCA
  3. CSDN超简单的上传gif动图方法
  4. python实现整数从低位到高位输出与从高位到低位输出
  5. 网络安全——文件上传
  6. Siege——多线程编程最佳实例
  7. Handler详解(中)
  8. 微软服务器 客户机,网络客户端和服务器技术简介
  9. 转:HDFS研究----.Trash文件
  10. Blockly编程教程-Google Blockly入门与介绍