OpenKG地址:http://openkg.cn/dataset/openconcept

官网:http://openconcepts.openkg.cn(提供Dump)

开放许可协议:CC BY-SA 4.0(署名-相同共享)


OpenConcepts 介绍

OpenConcepts (http://openconcepts.openkg.cn/) 是一个基于自动化知识抽取算法构建的中文概念图谱,由浙江大学知识引擎实验室贡献。本次开源了OpenConcepts中的440万概念核心实体,以及5万概念和1200万实体-概念三元组,并提供json,ttl, json-ld多种格式的原始Dump下载。

概念是人脑对事物的本质反应,能够帮助机器更好的理解自然语言。相较于传统的知识图谱,OpenConcepts包含大量中文细粒度概念,且具备自动更新、自动扩充的能力。比如对于“刘德华”这一实体,OpenConcepts不仅包含“香港歌手”、“演员”等传统概念,还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。

OpenConcepts构建

构建知识图谱具有诸多挑战。早年的英文知识图谱如CyC、WordNet以及中文知识库如HowNet等大多通过专家手工构建,其构建成本非常高昂。Openconcepts采取完全自动化构建的方式,基于海量的中文网页数据和若干开放的中文知识库,通过自动化信息抽取、短语挖掘等自然语言处理技术,实现概念知识图谱的自动化构建。相较于传统的概念知识图谱,OpenConcepts的特点在于:

1. OpenConcepts包含大量的中文细粒度概念,这部分细粒度概念填补了中文细粒度知识的空白。

2. OpenConcepts是基于全自动化构建的方式,其整合了诸多自然语言处理算法并形成一套完整的知识抽取框架,具备自动化抽取、自动化扩展、自动化更新的能力。

OpenConcepts的自动化构建主要分为两大模块,1)概念知识的自动化抽取 2) 概念知识的融合,相关技术已经发表在国际顶会KDD 2021。我们首先通过开放的知识库、百科InfoBox等结构化、半结构化数据抽取粗粒度的概念。对于细粒度的概念,我们采取短语挖掘和序列标注相结合的策略,通过实体-概念模板和无监督短语挖掘构造弱监督样本,并基于迭代的降噪学习训练基于序列标注的概念抽取模型(http://openconcepts.openkg.cn/concept_extract_page),在离线测试集上概念抽取模型准确率可达0.89,召回率可达0.85。然后,我们对抽取到的不同的实体和概念进行融合,并通过贝叶斯估计过滤掉低置信度的概念。此外,我们也构造人工规则约束对高层次的概念进行人工干预,保证准确率。

具体的说,我们首先从包含噪声的海量开放语料中提取常见的细粒度概念,然后获取候选概念和实例,并通过概率推理和概念匹配将候选概念和实例与相应的概念联系起来。我们定义了一组精准的模板来从高置信度的匹配查询中利用Bootstrapping方法提取概念短语。例如,“十大XXX”是一种可用于提取种子概念的模式。基于这种模式,我们可以抽取出“十大手机游戏”等概念。然而由于文本中存在大量的噪声,因此我们采用一种基于对齐一致性的Bootstrapping方法来处理含噪文本。假设在某一轮中找到的新模板p,n_s是现有种子概念集合中的概念数,p可以从查询集Q中提取这些概念。设n_e是p可以从Q中提取的新概念的个数,我们通过函数 Filter(p): 1)  和2)   维护模板集p ,其中、以及  是预定义的阈值,用于控制提取概念的精度。其次,我们通过对齐一致性对挖掘出的概念进行过滤,以提高细粒度概念的质量。最后,我们对挖掘出的细粒度实例和候选概念,利用概念判别器来判断每一个候选是概念还是实例,并通过概率推理和概念匹配将实例与这些分类的概念联系起来。具体的流程如下图所示:

针对长尾概念,我们通过短语挖掘和自训练从有带噪的搜索日志中提取长尾概念。我们首先基于短语挖掘算法,并利用外部领域知识图谱中的术语进行长尾的概念挖掘。具体来说,我们首先过滤停止词,然后使用现成的短语挖掘工具AutoPhrase在无监督的情况下对语料库进行短语挖掘。

我们同时采用了一种基于自训练的序列标注算法,用于长尾概念的挖掘,进一步提取一些分散的概念。具体而言,我们基于上述无监督方法生成的一些实例/概念作为种子训练一个CRF序列标注模型,并基于海量无标注数据生成大量弱监督伪样本,然后我们基于伪标注样本训练了一个基于BERT序列标注模型。之后,我们基于CRF、BERT和领域字典得到的预测结果进行一致性校验,以过滤掉伪标注样本中的噪声,并迭代生成更可靠的训练样本。

最后,我们将部分概念与预定义的同义词词典对齐。然后,我们通过通过每天的用户搜索实例热度计算置信度得分,并根据用户的点击行为来估计概念置信度分布。最后,我们将两个不同粒度的置信度得分联合构建实例-概念分类。

OpenConcepts规模和用途

  

本次,我们开源了OpenConcepts中的440万概念核心实体,以及5万概念和1200万实体-概念三元组。这些数据包括了常见的人物、地点等通用实体。我们的数据还在不断更新中。本次开源的数据可在openkg.cn 获取,OpenConcepts能够为智能推荐、智能问答、人机对话等应用提供数据支持。

我们的API接口开放在url{http://openconcepts.openkg.cn/api_page}。可以指定实例,返回若干概念实例集,包含相应的概念层级和置信度。例如我们可以发送http://openconcepts.openkg.cn/api/entity_concept?entity=南华园,来询问“南华园”这一实例。返回一个字典,其中"位置"概念属于概念级别1,置信度为0.43;"楼盘"属于概念级别2,置信度为0.75;"房产"属于概念级别1,置信度为0.43;"学校"属于概念级别2,置信度为0.25;"教育"属于概念级别1,置信度为0.14。同时在网站的分页面我们也开放了各类概念数据集的下载链接。

结语及致谢

由于OpenConcepts是基于自动化算法从互联网语料获取的,其中难免存在错误的数据,在此表达歉意。感谢毕祯提供算法上的支持、唐坤实现在线演示系统,邓淑敏、余海阳、叶宏彬、杨嘉诚、李娟、邓鸿杰、李泺秋、杨帆、陈想、谢辛等提供数据和技术上的支持。


OpenKG

OpenKG(开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)相关推荐

  1. 技术动态 | 大规模中文概念图谱CN-Probase正式发布

    本文转载自公众号知识工场.     历时多年的研发,复旦大学知识工场实验室正式推出大规模中文概念图谱--CN-Probase,用于帮助机器更好的理解人类语言.概念图谱中包含实体(比如"刘德华 ...

  2. 大规模中文概念图谱CN-Probase正式发布

    历时多年的研发,复旦大学知识工场实验室正式推出大规模中文概念图谱--CN-Probase,用于帮助机器更好的理解人类语言.概念图谱中包含实体(比如"刘德华").概念(比如" ...

  3. 容联云AI科学院研发先进KBQA能力,问鼎大规模中文知识图谱问答权威性测评

    容联云AI科学院研发的KBQA算法,凭借其对中文语言及知识图谱的精准语义解析和推理能力,夺得权威中文语言评测CLUE中的大规模中文知识图谱问答KgCLUE榜单的第一名. KgCLUE是中文语言理解领域 ...

  4. 图谱实战 | 面向C端场景的概念图谱构成、建设与应用索引

    转载公众号 | 老刘说NLP C端是知识图谱应用的一个重要领域,这个领域有大量的用户行为数据,存在着包括搜索.推荐.广告投放等业务. 当前,主流的互联网公司,如美团.阿里.腾讯都在尝试相关落地,在此当 ...

  5. 领域应用 | 机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG

    转载公众号 | PaperWeekly 概念是人类认知世界的基石.比如对于"哪吒好看吗?","哪吒铭文搭配建议"两句话,人可以结合概念知识理解第一个哪吒是一部电 ...

  6. 开源开放 | 熵简科技 AI Lab 开源金融领域中文预训练语言模型 FinBERT

    1 背景及下载地址 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 FinBERT 1.0.相对于Google发布的 ...

  7. 论文浅尝 - 计算机工程 | 大规模企业级知识图谱实践综述

    本文转载自公众号:计算机工程. 大规模企业级知识图谱实践综述 王昊奋, 丁军, 胡芳槐, 王鑫 中文摘要:近年来,知识图谱及其相关技术得到快速发展,并被广泛应用于工业界各种认知智能场景中.在简述知识图 ...

  8. 《知识图谱概念与技术》读书笔记:概念图谱中的isA关系

    读完可以回答以下问题: 1.概念图谱构建的要素是什么?如何构建优质的概念图谱? 2.概念图谱中isA关系的抽取方法有哪些?实际应用较多的方法有哪些?实际应用时抽取过程是怎样的? 3.中文概念图谱的构建 ...

  9. 机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG

    概念是人类认知世界的基石.比如对于"哪吒好看吗?","哪吒铭文搭配建议"两句话,人可以结合概念知识理解第一个哪吒是一部电影,第二个哪吒是王者荣耀的英雄.然而机器 ...

  10. 大规模1.4亿中文知识图谱数据,我把它开源了

    作者 | Just 出品 | AI科技大本营(ID:rgznai100) 人工智能从感知阶段逐步进入认知智能的过程中,知识图谱技术将为机器提供认知思维能力和关联分析能力,可以应用于机器人问答系统.内容 ...

最新文章

  1. swift 通知中心 进入后台多久会通知用户关闭此功能
  2. 怎么使用CAD编辑器来打开图纸中的所有图层
  3. LeetCode:925. Long Pressed Name
  4. 身份验证错误错误指定的句柄无效_基于 Web 端的人脸识别身份验证「实践」
  5. 【狂转】某个N人的访谈记录(完)
  6. 包装类 与 简单集合框架
  7. Android自动化测试在多种屏幕下的注意事项
  8. 开源移动安全测试框架MobSF安装过程踩过的那些坑(一)
  9. 二重指针、二维数组及二者如何进行赋值
  10. 深度学习领域堪称圣经的书籍(深度学习又称之为花书)-由图灵奖获得者Yoshua Bengio所著
  11. winfrom DotNetBar sideNav控件使用问题
  12. 〖教程〗Ladon 0day通用执行命令DLL生成器-MS17010演示
  13. 皮亚杰的认知发展理论
  14. OSPF篇——SPF算法——002
  15. 红米k50 刷入类原生教程
  16. 【计算机视觉算法岗面经】“吐血”整理:2019秋招资料
  17. 全民农场服务器维护上不去,全民农场签到页面空白解决方法
  18. 解决:HotSeat短信图标提醒有误
  19. C++基础(四)——模板
  20. 不想被“监控”了?教你一招摆脱广告追踪

热门文章

  1. android模拟器 分辨率,Android模拟器各个皮肤的分辨率
  2. python往npy写入数据_数据存储在*.npy中的方式是什么?
  3. android qq 邮箱格式,qq邮箱怎么填写格式 qq邮箱格式写法介绍
  4. 苹果CMS-v10系统标签
  5. 三星固态性能测试软件,三星850 EVO 120G固态硬盘评测——性能测试与保养
  6. 美团外卖自动化业务运维系统建设
  7. 【揭秘Wintel提升win 7系统性能的背后】
  8. python用input输入整数列表_Python用input输入列表的方法
  9. 直播功能引入微信小程序
  10. JAVA中什么 和 什么的区别--面试最经常问的(全)