开源开放 | OpenKG 更新发布新冠概念、防控和流行病等多个知识图谱
近日,OpenKG 继续更新发布多个新冠知识图谱,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱 V1.1。
OpenKG 发布的所有新冠知识图谱都基于统一的命名规范和语义格式,采用 CC-by SA 相似署名开放许可协议,供大家免费下载使用。
欢迎大家访问新冠图谱专题链接,获取更多新冠知识图谱:
http://openkg.cn/group/coronavirus
1.新冠概念图谱 V1.0
图谱链接:
http://www.openkg.cn/dataset/covid-19-concept
1.1 简介以及潜在应用
新冠概念图谱从网络文本中采集了与新冠疾病相关的实体和关系(包括疾病、人物、症状等),进一步融合了从百度百科,维基百科等知识库的infobox中提取的实体关系。更为特别的是,本概念图谱利用自动挖掘的手段从网络文本中采集了大量细粒度的上位概念词。即此概念图谱的is-a层次结构(schema)是自动构建而成的,包含了细粒度的上下位层次结构。该概念图谱目前已应用于深睿医疗开发的新冠肺炎小睿医生助手中用于计算问句之间的相似度以及辅助解答用户提问。
借助于细粒度的上位概念层次结构和丰富的实体间关系,本概念图谱能够为针对新冠肺炎的智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。以问句相似度计算问例,本概念图谱可以对问句中的实体利用上位概念词进行扩展,通过丰富额外的特征从而更加准确的衡量问句间相似度而将问题归类。
1.2 数据schema
新冠概念图谱由网络文本中挖掘了大量细粒度的上位概念词,并自动获取概念之间的层次结构。即,本概念图谱的层次结构(schema)是自动构建形成的,可根据实体的含义形成细粒度的层次结构。
下面即展示了针对不同实体所形成的概念层次结构,其中红色结点为实体,深色的为上位概念词。由图中示例可见,根据实体的含义可以自适应的形成不同结构、不同层次的概念层次结构。例:
1.3 数据来源与规模
新冠概念图谱的数据有两个来源:
1)从网络文本中采集了与新冠疾病相关的实体、关系、细粒度的上位概念词,自动构建形成上下位概念层次结构。
2)融合了从百度百科,维基百科等知识库的infobox中提取的实体关系。
新冠概念图谱中的上位概念词从多来源的数据(包括搜索引擎、百科、构词结构)中获得,同时通过排序机制过滤掉可信度较低的上位概念词。实体和上位概念词以及上位概念词之间的层次结构(is-a关系)则通过度量词语之间的语义宽泛性自动获得。横向关系三元组(实体与实体之间的关系)中80%的数据来源于百度百科、维基百科的整合,余下的20%是从网络文本中自动挖掘而得,再辅以句法、语义等规则形成的置信度进行过滤而得到。以上做法保证了新冠概念图谱中包含的上位概念词、概念层次结构和关系三元组的准确性。
新冠概念图谱规模:
实体:4784
上位概念词:1487
上下位(Is-a)关系元组:19391
横向实体间关系三元组:35172
1.4 可视化样例
新冠概念图谱除了开放数据之外,还提供了可视化的查询网站,通过输入的关键词能够在该图谱中查询实体。为方便展示实体的上下位概念层次结构和实体之间的横向关系,我们提供了两种展示样式。如下图所示,针对同一实体的两种展示样式分别是实体的上下位概念层次关系和实体间的横向关系。图中红色的点代表查询实体,查询实体周围浅绿色的点代表该结点对应的实体也被概念图谱所包含,可点击展示。
2.新冠防控图谱 V1.0
图谱链接:
http://www.openkg.cn/dataset/covid-19-prevention
2.1 简介以及潜在应用
根据目前互联网公开的针对人员、场所、交通工具防控指南或手册,形成相应的知识图谱,包含防护概念的分类体系、注意事项,相关避免去的场所和不要做的事情。其中物资包含口罩等涉及一些特定商品的图谱并与防控规则关联。
潜在应用包括提供基本防控知识问题,集成于流程化信息处理平台,用于各场所检查防控措施是否正确等。例如以下示例:
示例:
【输入】:XX广场(Y2店),已控制公众前往商场,上班工作人员发热,已加强开窗通风换气,洗手间内洗手液配备足够,供水设施正常工作,卫生设施是否进行了消毒,且卫生设施消毒及时。
【输出】
XX广场(Y2店)是人流密集、流动性大的公共场所
防护情况:未正确防护
错误点:确保可疑症状工作人员不带病上班
遗漏点:
公共用品和接触部位进行了定期清洗和消毒
空调系统或排气扇正常运转
空调滤网定期清洗
及时清理垃圾
卫生设施必要时使用了空气消毒喷雾消毒
2.2 数据schema
2.3 数据来源与规模
协和新型冠状病毒肺炎防护手册,http://pumcp.com/portal/sites/xiehe/pages/books/7/index.html
《张文宏教授支招防控新型冠状病毒》(数字版),上海科学技术出版社
不同人群、不同场所和不同交通工具健康防护指导手册,中央赴湖北省指导组防控组编制,http://wjw.hubei.gov.cn/bmdt/ztzl/fkxxgzbdgrfyyq/jkkp/202002/t20200215_2028497.shtml
数据规模:
概念:95个
实例:306个
数值属性:5个
对象属性:14个
2.4 可视化样例
3.新冠流行病学图谱 V1.1
图谱链接:
http://openkg.cn/dataset/covid-19-epidemiology
3.1 更新记录
删除了原有JSON-LD数据中的示例性病例数据共5条;
添加了深圳市卫健委发布的316例新冠肺炎确诊病例的流行病学调查数据。
3.2 简介以及潜在应用
新冠肺炎流行病学知识图谱包含了流行病学知识图谱Schema和基于此Schema定义的新冠肺炎资源实例(待更新)。其中流行病学知识图谱Schema重点刻画流行病学的基本概念、流行病学调查等内容,未包含“流行病学研究方法”、“预防与控制策略”、“临床治疗与预后”等内容,需要在后续版本中与其他新冠肺炎知识图谱集成或连接。新冠肺炎资源实例包含了发生在2019年-2020年2月期间,COVID-19疫情中确诊患者的流行病学调查数据,这些数据来自中各省市卫健委公布的个案流调信息。
新冠流行病学图谱可以助力对流行病调查、溯源、密切接触者追踪,为医护人员和疾病防控人员提供技术支持,加速流行病调查研究。
3.3 数据schema
流行病学知识图谱的schema定义了流行病学的基本概念,例如:流行病、病原体、宿主、疫情、流行病学调查、调查方法、调查人群、被调查个体、调查报告。其中主要对病原体、流行病学调查和调查报告进行了详细定义。详见下图。
3.4 数据来源与规模
数据来源:
王建华,刘民,《流行病学-第7版》人民卫生出版社
陈清,徐德忠,《流行病学复习考试指导》人民军医出版社
各地卫健委公开信息
数据规模:
概念:55 个
实例:2163 个
数值属性:26个
对象属性:21个
三元组数量:8336 个
3.5 可视化的图谱样例
点击阅读原文,下载新冠知识图谱。
主要贡献者
新冠概念图谱
哈尔滨工业大学:张裕舟,佘琪星,王必聪,刘铭,秦兵,刘挺
新冠防控图谱
武汉科技大学:胡丹阳,王萌,李秋,刘宇,顾进广
东南大学:张振志,胡润秋,徐毅男,张涛,史淼,郭文孜,黄红蓝
新冠流行病学图谱
IBM中国研究院:李静,王健,蒋建民,王轲,王彦菲,梅婧
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
开源开放 | OpenKG 更新发布新冠概念、防控和流行病等多个知识图谱相关推荐
- 【第十一届泰迪杯数据挖掘挑战赛】A 题:新冠疫情防控数据的分析 思路+代码(持续更新)
[第十一届泰迪杯数据挖掘挑战赛]A 题:新冠疫情防控数据的分析 思路+代码(持续更新) 问题背景 解决问题 代码下载 数据分析 Task1 Task2 Task 3 问题背景 自 2019 年底至今, ...
- 2022年认证杯SPSSPRO杯数学建模C题(第一阶段)污水流行病学原理在新冠疫情防控方面的作用求解全过程文档及程序
2022年认证杯SPSSPRO杯数学建模 C题 污水流行病学原理在新冠疫情防控方面的作用 原题再现: 2019 年新型冠状病毒肺炎疫情暴发至今已过两年,新型冠状病毒历经多次变异,目前已有 11 种 ...
- 7天搞定图神经网络,实战助力新冠疫情防控!
要问这几年一直在逆势而上的技术有哪些?你一定不会忽略它--图神经网络. 相比传统神经网络,图神经网络的优势非常明显: 1.非顺序排序的特征学习:GNN的输出不以节点的输入顺序为转移的. 2.两个节点之 ...
- 大数据项目(基于spark)--新冠疫情防控指挥作战平台项目
大数据项目(基于spark)–新冠疫情防控指挥作战平台项目 文章目录 第一章 项目介绍 1.1 项目背景 1.2 项目架构 1.3 项目截图 1.4 功能模块 第二章 数据爬取 2.1 数据清单 2. ...
- 安排 , 2021新冠疫情防控指挥作战平台(视频+课件+代码+资料)
来源: 来自网络,如侵权请告知博主删除????. 仅学习使用,请勿用于其他- 最近小伙伴问我有没有爬虫相关的,小伙伴基本都是java的,那我们就来 目录如下: ├─视频! s, K+ ]5 Z! \( ...
- 复旦大学新冠肺炎防控第一课——尔雅答案
1.1 新冠肺炎:起源和发现 1.[单选题]新冠肺炎病毒发现的时间是(). A. 2019年12月27日 B. 2019年12月29日 C. 2019年12月30日 D. 2019年12月31日 答案 ...
- 2021春节期间各区县单位新冠疫情防控钉钉解决方案
一.2021年春节期间疫情防控工作要求 1.国务院常务会议对春节期间的疫情防控工作作出明确指示 "必须高度重视冬季疫情防控形势发展的不确定性,时刻绷紧疫情防控这根弦,严格落实'外防 输入.内 ...
- 【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
[2023年第十一届泰迪杯数据挖掘挑战赛]A题:新冠疫情防控数据的分析 32页和40页论文及实现代码 相关链接 (1)建模方案 [2023年第十一届泰迪杯数据挖掘挑战赛]A题:新冠疫情防控数据的分析 ...
- 新冠疫情防控背后有哪些鲜为人知的技术?
1. 前言 从2019年末从武汉市发现新冠肺炎病毒确诊病例开始,到现在已经有两年多的时间了.在这两年中,从最初的恐慌变得自信,从开始的逃离疫区.抢购物资.扎堆就医,到现在配合流调.主动检测.积极接种疫 ...
- 【2022-SPSSPRO杯数学建模】C题污水流行病学原理在新冠疫情防控方面的作用 论文及代码
目录 1 题目 2 解决方案 1 题目 2019 年新型冠状病毒肺炎疫情暴发至今已过两年,新型冠状病毒历经多次变异,目前已有 11 种变异毒株,包括阿尔法.贝塔.德尔塔.奥密克戎等.其中变异株奥密克戎 ...
最新文章
- 卡方 python_卡方优度检测 (Python 实现) --基于jupyter
- base64核心原理
- java后端简历项目经历_为了面试字节跳动后端开发岗(Java)鬼知道我经历了什么.....
- Eclipse启动Tomcat时,45秒超时解决方案
- angular学习资源
- 51单片机(STC)串口无阻塞发送函数
- 同相放大器、反相放大器的区别与优劣
- android微信分享大图长图,裁剪微信分享缩略图片(长缩略图取中裁剪)
- 基于stm32单片机的模拟IIC时序(附源码)
- linux 远程挂载目录,linux开机自动挂载远程主机文件目录
- qq邮箱服务器在哪里设置密码,手把手教程 邮箱这样设置,就对了
- Problem1: Magic Square
- 安搭Share:当色彩与文物碰撞会擦出什么火花
- Reflex WMS入门系列二十二:物料库存报表
- Java web基础学习笔记
- python数据结构之数据类型
- 机器学习实战 基于_[编程]-机器学习实战-概览
- WMS系统4.0,仓库管理的20年历史变局你知道吗?
- MySQL数据库基础知识11,查询缓存
- Unity3d 模型 动态切割
热门文章
- NXOPEN/UG二次开发C#---获取NX的版本
- 7、边沿触发-D型触发器
- 数学常用特殊符号读音
- Turnitin查重原理是什么?
- sonic云真机linux分布式部署
- 实时协同编辑的实现: 编辑锁, OT算法
- Html设置图片大小代码
- 云知声(Unisound)蜂鸟系列AI离线语音识别芯片方案介绍
- 山海经鸿蒙手游iOS 版本,山海经鸿蒙异兽手游下载,山海经鸿蒙异兽手游最新官方版 v1.0-手游汇...
- c++入门 简单语句 空语句 作用域和块 复合语句