0. 科学知识图谱

0.1 科学知识图谱概念

学知识图谱(下简称知识图谱)是以科学文献知识为对象,以文献计量学、信息计量学、网络计量学、知识计量学和科学计量学的理论方法为基础,显示学科或领域发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征,是一种复杂网络结构图。知识图谱作为一种有效的、综合性的可视化分析方法和工具,被广泛应用并取得了较可靠的结论,被越来越多的学者所重视。通过知识图谱较形象、定量、客观、真实地显示一个学科的结构、热点、演化与趋势,无疑为学科的基础研究提供了一种新的视角。

与一般计算机图的结构相比,复杂网络的复杂性最主要表现在节点数目庞大,通常达到几千甚至几万个。因此,复杂网络的结构比一般的计算机图的结构要复杂得多。复杂网络可以用来描述人与人之间的社会关系、物种之间的捕食关系、计算机之间的网络联接、词与词之间的语义联系、科学家之间的合作关系、科研文章之间的引用关系,以及网页的链接结构等等。

科学知识图谱主要用于对研究热点、研究前沿、研究趋势、知识结构和科学领域结构进行探索。研究前沿是正在兴起的理论趋势和新主题的涌现,共引网络则组成了知识基础。在分析中可以利用从文献题目、摘要等部分提取的突发性术语与共引网络的混合网络来进行分析。

研究热点可以认为是在某个领域中学者共同关注的一个或者多个话题,从“研究热点”的字面理解,它具有很强的时间特征。一个专业领域的研究热点保持的时间可能有长有短,在分析时要加以注意。

关于学科领域结构的研究视角,笔者认为最直接的方法是是使用科学领域的贡献网络进行分析,但这些结果是宏观的,还可以结合期刊的共被引聚类进行分析。

目前应用领域主要集中在图书馆与档案管理、管理科学与工程、安全科学以及教育学等领域。

0.2 知识图谱主要工具

围绕科学知识图谱的绘制,学者和工程师们开发了很多有用的绘制工具,如Citespcae、Bibexcel、Pajek、Ucinet、HistCite和Sci2等

软件名称 开发者 功能描述 推荐指数
CiteSpace Chaomei Chen 科学计量与可视化分析 ★★★★★
VOSViewer Van Eck, N.J 科学计量与可视化分析 ★★★★★
SCI2 Katy Borner团队 科学计量与可视化分析 ★★★★★
SciMat M.J.Cobo,A.G 科学计量与可视化分析 ★★★★
Loet_Tools Leydesdorff 科学计量与可视化分析 ★★★★
BibExcel Olle Persson 科学计量与可视化分析 ★★★★
HistCite Eugene Garfield 科学计量与引证网络 ★★★★
CiteNetExplore Van Eck, N.J等 引证网络及可视化 ★★★★★
Publish or Perish Anne Wil Harzing 谷歌学术数据采集及分析 ★★★
Mapequation Daniel Edler等 网络及演化的可视化 ★★★
Gephi   网络可视化分析 ★★★★★
Pajek V Batagelj等 网络可视化分析 ★★★★★
NetDraw Borgatti, S.P 网络可视化分析 ★★★
Cyoscape   网络可视化分析 ★★★
Ucinet Borgatti, S.P 网络文件的统计分析 ★★★
BICOMB 崔雷等 矩阵的提取和统计 ★★★
SATI 刘启元 矩阵的提取和统计 ★★★
Carrot2 Audilio Gonzales 辅助文本可视化 ★★★
Jigsaw John Stasko团队 辅助文本可视化 ★★★
GPS Visualizer   辅助地理可视化 ★★★

0.3 CiteSpace

CiteSpace 是国际著名信息可视化专家、美国德雷塞尔大学(Drexel_University)信息科学与技术学院陈超美教授和团队研发的一款用于分析和可视共现网络的Java应用程序。CiteSpace近年来在中国广泛使用,大连理工大学等多所中国院校使用CiteSpace展开了不同程度的研究,并将国内的CNKI、CSSCI等数据源成功应用到了CiteSpace中。

有学者认为,根据引文半衰期的明显不同,科学文献可分为持续高被引的经典文献和在短暂时间内达到被引峰值的过渡文献。研究前沿可以被理解为过渡文献,知识基础则是这些过渡文献的引文。CiteSpace就是利用“研究前沿术语的贡献网络”、“知识基础文章的同被引网络”、“研究前沿术语引用知识基础论文网络”这三个网络随着时间演变来寻找研究热点和趋势,并用可视化方式展示出来。

CiteSpace最初以Webof Science导出的题录数据为主要数据源,探讨科学文献可视化的模式和发展趋势。使用的题录字段主要有:Author(作者)、Title(标题)、Abstract(摘要)、Keyword(关键字)、Country(国家)、Institution(机构)、Reference_Cited(参考文献)、Journal(期刊)、Category(分类)等。

CiteSpace不仅适用于自然科学领域还适用于社会科学领域,但自然科学的新理论、新发现要比社会科学相对频繁,研究内容变化幅度要比社会科学相对较大,变化趋势较容易捕捉。

0.4 Bibexcel

Bibexcel软件是瑞典于默奥大学(Umeå_UniversityOlle_Persson教授设计开发的一款软件,主要用于辅助用户分析书目数据或者格式相近的自然语言文本,生成的数据文件可导出到Excel或其他可以处理Tab键隔开数据的程序中。Bibexcel是免费软件,包括一系列工具,这些工具一些可以在程序窗口中看到,一些被设置在菜单中。

Bibexcel软件与其帮助文档均可从于默奥大学官方网站进行下载,http://www.soc.umu.se/english/research/bibexcel/。早期在Windows系统中安装Bibexcel软件需要将Bibexcel程序放在C:\bibexcel目录下,但现在可以将其放在任何磁盘和目录下。Bibexcel还可以在Linux系统利用“wine”命令进行运行。如果运行中需要附加文件,可以根据提示在互联网中进行下载。

Bibexcel利用汤森路透旗下Web_of_Science平台中的SCISSCIA&HCI3个引文库中的数据进行分析,也可以转换其他格式的数据。利用Bibexcel可以进行文献计量分析(bibliometric)、书目计量分析(bibliometry)、引文分析(citation_analysis)、共引分析(co-citation)、文献共享(shared_references)、书目耦合(bibliographic_coupling)、聚类分析(cluster_analysis)、绘制文献图谱(prepare_bibliometric_maps)等。

Bibexcel软件可视化功能不够强大,但是研究人员可以将输出数据应用到Pajek、Ucinet、NetDraw或者SPSS中。Bibexcel软件只能得到共现矩阵,可以生成作者合作、文献共引的共现文件,可以将这些文件转换成Pajek(免费软件)可用的文件,以便利用其进行分析和可视化。Bibexcel还可以为Pajek生成clu-filesvec-files

0.5 Pajek

Pajek在斯洛文尼亚语中是“蜘蛛”的意思。Pajek软件是有斯洛文尼亚卢布尔雅纳大学的Vladimir Batagelj和Andrej Mrvar两位教授共同编写的免费软件。
下载地址:http://mrvar.fdv.uni-lj.si/pajek/

wos2pajek(以下简称w2p)是pajek 的作者Vladimir_Batagelj为了更加有效的处理wos上的记录数据而开发出的一款小程序,用它可以对从wos上下载的全纪录进行预处理,生成若干直接用pajek进行分析的文件,如果没有这款软件,用pajek对大型引文网络的分析将是几乎不可能的(不排除还有其他软件,但我目前还不知道)。目前w2p目前最新的版本是0.8版wos2pajek8.zip,下载地址:http://vlado.fmf.uni-lj.si/pub/networks/pajek./WoS2Pajek/default.htm

费弗尔(Jurgen Pfeffer)编写了两个Windows应用程序,用于帮助创建Pajek网络文件。Txt2pajek 下载地址:http://www.pfeffer.at/txt2pajek/

Pajek软件的结构基于六大数据类型:

  • (1)Networks(网络)Networks主要对象是结点和边,数据文件的默认扩展名是.net。
  • (2)Partitions(分区)Partition指明了每个结点分别属于哪个区,数据文件的默认扩展名是.clu。
  • (3)Permutations(排序)Permutations将结点重新排列,数据文件的默认扩展名是.per。
  • (4)Cluster(类)Cluster是指结点的子集,数据文件的默认扩展名是.cls。
  • (5)Hierarchy(层次)Hierarchy是指按层次关系排列的结点,数据文件的默认扩展名是.hie。
  • (6)Vectors(向量)Vectors是指每个结点具有的数字属性(实数),数据文件的默认扩展名是.vec。

Pajek可以读取多种纯文本格式的网络数据或含有未格式化文本(ASCII)的文件,Pajek2.0以上版本还支持Unicode UTF-8编码格式的标签,这可以让用户用任何语言文字系统来编辑标签。
创建Pajek数据输入文件有多种方法,用户可以在Pajek软件中手动创建,可以利用辅助软件创建,还可以利用关系型数据库创建。

Pajek软件操作基本流程:

  • (1)在Pajek软件中选择Network—Create Random Network—Total No. of Arcs命令生成一个含指定数量顶点但不含连线的网络文件,然后在字处理软件中编辑顶点标签和增加连线即可;
  • (2)Jurgen Pfeffer编写了两个Pajek辅助软件createPajek.exe和txt2Pajek.exe,前者可以从Microsoft Excel工作表中读取数据,后者可以从纯文本文件中读取数据,比前者提供了更灵活的设置和选项,运算速度也比前者快;
  • (3)Pajek官网提供了一个Microsoft Acess空白数据库模板(network.mdb),用户可以构建1-Mode和2-Mode网络所需的“表”、“查询”、“报表”三种内容。

Pajek可处理结点数高达百万的大型网络,同时具有网络分析和可视化功能,还可以将一个大型网络分解为多个、可以独立显示的子网络,有助于进行进一步的精确分析;它还为使用者提供了有效的分析算法和强大的可视化工具,提供给了一个可视化的界面,帮助用户更加直观地了解各种复杂网络的结构。

与其他社会网络可视化软件相比较,Pajek具有以下特点:

  • (1)快速有效
    一个算法的复杂度主要表现时间复杂度和存储空间复杂度两个方面。Pajek为用户提供了一整套快速有效的、分析复杂网络的算法,用以计算和分析数以万计结点数的大型复杂网络。
  • (2)可视化
    Pajek为用户提供了一个界面友好的可视化平台。用户不仅可以快速绘制出一张网络图,还可以根据自己的需要对网络图进行精细调整,从而允许用户从视觉的角度更加直观的分析复杂网络特性。
  • (3)抽象化
    Pajek可以将复杂网络的全局结构进行抽象,将联系紧密的结点归为一类。每个类看成一个整体,将它作为新的结点得到一个新的网络图。新的网络图中各个类之间通过少数几条边相连接,可以很容易看出整个网络的整体结构。

新兴学科科学知识图谱绘制的大数据挖掘方法和实现相关推荐

  1. 科学知识图谱绘制方法、步骤及工具

    1.知识图谱的起源与发展 2.知识图谱的绘制方法 2.1 文献计量方法 2.2 统计分析方法 3.知识图谱绘制的步骤 4.知识图谱绘制的工具 科学知识图谱(简称知识图谱)是现实科学知识发展进程与结构关 ...

  2. 智慧城市知识图谱模型与本体构建方法

    智慧城市知识图谱模型与本体构建方法 臧根林1,2, 王亚强1,2, 吴庆蓉1,2, 占春丽1,2, 李熠3 1 拓尔思知识图谱研究院,广东 广州 510665 2 广州拓尔思大数据有限公司,广东 广州 ...

  3. 知识图谱推理:现代的方法与应用

    摘要: 知识图谱推理技术再根据已有的知识推导出新的知识,是机器智能具有和人类一样的推理能力和决策能力的关键性技术,系统的研究了知识图谱推理的现代方法,通过统一的架构介绍了向量空间中进行知识图谱推理的现 ...

  4. 知识图谱构建中的抽取方法

    知识图谱构建中的抽取方法看法 一.实体抽取 二.属性值抽取 三.关系三元组抽取 基于规则的关系抽取 有监督关系抽取 半监督关系抽取 无监督关系抽取 远程监督关系抽取 开放域关系抽取 四.属性三元组抽取 ...

  5. 实体对齐 算法_知识图谱中的实体对齐方法及装置与流程

    本发明涉及计算机领域,具体而言,涉及一种知识图谱中的实体对齐方法及装置. 背景技术: 在构建大规模知识库的任务中,需要处理大量来自多源知识库的实体数据.在构建知识库之初,首先需建立一个知识描述体系,然 ...

  6. 知识追踪模型——教育大数据挖掘

    知识追踪模型--教育大数据挖掘 知识追踪的本质是根据学生的历史学习记录来推测任意时刻学生对于知识点的掌握程度,进而预测学生的未来成绩,也可以辅助教师布置教学计划等. 现有的知识追踪模型大致可以分为3类 ...

  7. 大数据挖掘方法有哪些

    数据挖掘是指人们从事先不知道的大量不完整.杂乱.模糊和随机数据中提取潜在隐藏的有用信息和知识的过程.根据信息存储格式,用于挖掘的对象是关系数据库,面向对象的数据库,数据仓库,文本数据源,多媒体数据库, ...

  8. 经管文本分析 | 金融学文本大数据挖掘方法与研究进展阅读笔记

    姚加权 张锟澎 罗平 <经济学动态>2020年第4期 沈艳 陈赟 黄卓 <经济学(季刊)> 2019年第4期 前言 本文是刊载于<经济学(季刊)>2019年第4期& ...

  9. 同济大学王昊奋:知识图谱在多模态大数据时代的创新和实践 | 世界人工智能大会达观数据论坛

    在2020年世界人工智能大会云端峰会中,达观数据与浦东青联联合举办了"智能时代,语你同行"行业论坛,围绕语言智能,在云端与多位行业专家与学者展开了一场精彩线上交流盛宴. 同济大学特 ...

最新文章

  1. 传智播客C/C++各种开发环境搭建视频工具文档免费教程
  2. 轻松使用OpenCV Python控制Webcam,读取Barcode
  3. C++文件读写 打开方式等比较全
  4. 【11】nvjdc不能用以后另一种jd ck获取办法
  5. MYSQL查看 table 表状态常用的命令
  6. live555 源码分析:基础设施
  7. 20应用统计考研复试要点(part25)--简答题
  8. 《零基础看得懂的C语言入门教程 》——(九)C语言二维数组与循环嵌套
  9. session-path
  10. java subset_Java TreeSet subSet()方法
  11. JavaScript 弹出子窗体并返回结果到父窗体
  12. sequel pro mac_Mac手绘插画绘图软件推荐
  13. 物联网之NB-IoT技术实践开发二
  14. Spring-AOP模块的Advised分析
  15. 最新在线客服系统php代码微信软件公众号小程序app二维码聊天网站源码
  16. 苹果电脑App Store下载失败
  17. 已经开源的阿里云播放器的播放内核
  18. FT60F011A包含1Krom+EEPROM+Flash方案
  19. 40w粉整700w活,一支恰饭作品让B站用户直呼“甲方赚了”
  20. Uninstall Tool 破解手记

热门文章

  1. 深入毛细血管供能细节规划,在未来城市中百度地图扮演了何种角色?
  2. 炸了!蚂蚁金服暂缓上市,内部P7Java面试题竟遭外泄
  3. selenium谷歌浏览器驱动配置
  4. Google Driver 的使用
  5. 技术研究项目评价指标及评分标准表V3.0
  6. c语言x21是什么意思,vivo X21是什么接口_vivo X21充电接口是什么-太平洋IT百科手机版...
  7. 诺瓦科技--测试开发工程师(7.12)
  8. 素数(质数)判断的五种方法
  9. 高通骁龙410C开发板基础知识
  10. SQL语句记录,查询今日某个活动签到是否正常