1《大词林》简介

《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出,由我中心秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库。自2014年11月推出第一版《大词林》,《大词林》共经历了两次大的版本变化。第一版的《大词林》包含了自动挖掘的实体和细粒度的上位概念词,类似一个大规模的汉语词典,其特点在于自动构建、自动扩充,细粒度的上下位层次关系。第二版的《大词林》引入了实体的义项和关系、属性数据,将每一个实体的义项唯一对应到细粒度的上位词概念路径,让《大词林》中实体的含义更加清晰。

相比于传统的开放域实体知识库,《大词林》的特点在于:1)构建不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。2)其数据规模可以随着互联网中实体词的更新而扩大,很好地解决了以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。3)每一个实体的义项均能够唯一对应到细粒度的上位词概念路径且具有丰富的实体和关系数据,能够更加清晰明确的展示实体的含义。

2 开源数据规模和用途

本次,我们开源了《大词林》中的75万的核心实体,和该核心实体对应的细粒度概念词(共1.8万概念词,300万实体-概念元组),及相关的关系三元组(共300万)。这75万核心实体列表涵盖了常见的人名、地名、物品名等术语。概念词列表则包含了细粒度的实体概念信息。借助于细粒度的上位概念层次结构和丰富的实体间关系,本次开源的数据能够为智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。

在http://101.200.120.155/browser/页面下有全部开源数据的下载链接,用户也可直接利用下面的链接直接下载全部数据。数据包括JSON格式的schema,同时包括实体列表、概念列表、实体-概念词列表和实体元组列表。

下载地址:http://www.openkg.cn/dataset/hit

图1 开源实体的抽样分布情况

数据格式如下:

Schema文件, bigcilin_schema.json

实体词表, entity.txt

实体名1

实体名2

……

概念词表, concept.txt

概念词1

概念词2

……

实体-概念词表, hyper.txt

实体名1,上位词1

实体名2, 上位词2

……

实体三元组表, triple.txt

实体名1,关系名1,实体名1

实体名1,关系名2,实体名2

……

为方便用户查看不同类别下的实体,将本次开源的实体中常见的类别放在此demo下http://101.200.120.155/browser/。为加快加载速度,此demo仅展示了类别下的抽样实体。

图2 开源实体按类别浏览

3 结语

如需要查询更多的数据可使用《大词林》系统网站(http://101.200.120.155/),该系统支持用户查询任意实体,并以有向图的形式展现实体的层次化概念体系,同时支持以目录方式浏览部分公开的知识库。经过如上的改进后,目前《大词林》2.0版已拥有实体30,102,845 (三千万),上位词182,079(十八万),优质的实体上下位关系对15,577,846(一千五百万对),属性-值对79,568,791(七千九百万对),关系(属性)数436,961(四十三万)。有关《大词林》的功能介绍及详细的接口说明请联系mliu@ir.hit.edu.cn。

4 开源协议

《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出,由我中心秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库。本次开源是《大词林》中的75万核心实体和核心实体对应的1.8万细粒度概念词表,其中核心实体涵盖了包括常见的人名、地名、物品名等术语,概念词列表则包含了细粒度的实体概念信息。同时开源的还包括由实体和概念形成的上下位关系列表(300万)和实体对应的关系三元组列表(300万)。本批数据面向国内外大学、中科院各研究所以及个人研究者开放,上述开放资源可免费用于学术研究,如要商用,需付费购买。如需完整版数据或咨询购买事宜请向mliu@ir.hit.edu.cn咨询。如果您在《大词林》开源数据基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了哈工大社会计算与信息检索研究中心研制的《大词林》”,同时发信给 mliu@ir.hit.edu.cn,说明发表论文或申报成果的题目、出处等。

5 作者介绍

张裕舟 哈尔滨工业大学社会计算与信息检索研究中心 yzzhang@ir.hit.edu.cn

佘琪星 哈尔滨工业大学社会计算与信息检索研究中心 qxshe@ir.hit.edu.cn

王必聪 哈尔滨工业大学社会计算与信息检索研究中心 bcwang@ir.hit.edu.cn

刘铭   哈尔滨工业大学社会计算与信息检索研究中心 mliu@ir.hit.edu.cn

秦兵   哈尔滨工业大学社会计算与信息检索研究中心 bqin@ir.hit.edu.cn

刘挺   哈尔滨工业大学社会计算与信息检索研究中心 tlu72@ir.hit.edu.cn

点击阅读原文,下载《大词林》数据。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表...相关推荐

  1. WAIC 2021 | 共话AI开源开放之道,赢取惊喜好礼!

    点击左上方蓝字关注我们 开源开放已经成为驱动技术创新和加速产业发展的核心动能,在以深度学习为代表的人工智能发展浪潮中,产业界同时也成为驱动开源开放的重要力量.成熟的开源开放技术平台与生态,正在推动社会 ...

  2. OceanBase首次阐述战略:继续坚持自研开放之路 开源300万行核心代码

    简介:在数据库OceanBase3.0峰会上,蚂蚁集团自主研发的分布式数据库OceanBase首次从技术.商业和生态三个维度对未来发展战略进行了系统性阐述.同时,OceanBase宣布正式开源,并成立 ...

  3. 阿里在开源领域又有哪些新动向?来首届阿里开源开放周找答案!

    随着开源的价值受到认可和推崇,越来越多的企业走上了"开源之路".其中,阿里巴巴在十几年开源的沉淀中,从开源软件的使用者.贡献者,成长为开源软件的开拓者,已经成为国内开源走在前面的厂 ...

  4. 开源汇智创未来 | 2022开放原子全球开源峰会OpenAtom openEuler分论坛圆满召开

    7月27日,2022开放原子全球开源峰会OpenAtom openEuler分论坛在北京成功举办.论坛以"openEuler志高远,开源汇智创未来"为主题,为业界充分展示 open ...

  5. Apache IoTDB PMC 乔嘉林荣获 2022 杰出开源贡献者|开源技术强大,开源文化活跃...

    2022 年 12 月 29 日至 30 日,2022 木兰峰会正式召开,会上发布了中国开源云联盟 2022 年度评选名单.本次评审专家包括数十位开源领域专家.社区领袖.科研院所专家,共评选出杰出开源 ...

  6. 智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会...

    萧箫 整理自 AIGC峰会 量子位 | 公众号 QbitAI ChatGPT引爆了大模型,也彻底将大模型相关的AI产业生态带到了新的阶段-- 大模型的"涌现能力",让AI真正展现出 ...

  7. 开源开放是人工智能发展主要趋势之一

    科技日报记者 张盖伦 "飞桨",顾名思义,想让深度学习领域的开发者顺利渡河靠岸.10月16日,在首届世界科技与发展论坛上,百度发布了飞桨产业级深度学习开源开放平台. 飞桨以百度多年 ...

  8. 开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/rcwi-dataset 开放许可协议:CC BY-SA 4.0 (署名相似共享) 贡献者:北京语言大学(阙孟溪.张宇飞.于东) 1 ...

  9. 开源开放 | 多模态实体链接数据集MELBench(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/melbench GitHub地址:https://github.com/seukgcode/MELBench 开放许可协议:CC ...

最新文章

  1. IDEA如何导入多个maven依赖的项目
  2. Spring Boot 应用监控:Actuator与 Admin
  3. python matplotlib.pyplot plt.ioff()函数(关闭交互模式用于阻塞程序,不让图片关闭)
  4. LeetCode 2092. 找出知晓秘密的所有专家(并查集)
  5. 开公司的两个方向,要么把公司开成很赚钱,要么把公司做成很值钱
  6. 了解MySQL的隐式转化
  7. 14.go build
  8. 算法笔记_二分查找/斐波那契查找
  9. 单片机交通灯灯c语言程序,51单片机控制交通灯原理图及C语言程序
  10. 什么是悬赏任务APP源码?
  11. 洛谷P1640 [SCOI2010]连续攻击游戏 (二分图) HQG_AC 的博客
  12. VMware Workstation左侧不见了,左侧菜单栏不见了
  13. WHMCS V7.60 新增短信宝短信插件
  14. 华为路由器Serial接口及串口无法实现ACL访问控制解析
  15. JavaSE聊天室项目
  16. 主线程退出对子线程的影响
  17. JVM基础及JVM调优及常见参数详解
  18. 数字电路的竞争与冒险
  19. 将Windows7屏幕外的窗口拖回
  20. 无任何网络提供程序接受指定的网络路径的解决

热门文章

  1. SheevaPlug是什么,有什么用途
  2. 常用的匹配正则表达式
  3. 项目实战|100个蓝牙接收器发货了
  4. android导出apk文件_Android测试工具入门介绍(三)
  5. 如何 给给软件开发 添加 代理_敏捷开发是如何被跑偏的
  6. mysql sqlserver分页_SqlServer、MySql万能分页代码
  7. python画tan_Python入门之三角函数tan()函数实例详解
  8. 数据结构之平衡树:2-3查找树的介绍——16
  9. python web框架基础
  10. LeetCode 775. 全局倒置与局部倒置(归并排序/二分查找/一次遍历)