Graphical Abstract

摘要

本文旨在利用文献分析工具“Bibliometrix”及其交互界面“Biblioshiny”,基于文献数据库的检索结果,快速获取目标课题的关键信息。相较于传统人为反复阅读的方法,该方法可高效实现以下重要功能:

  • 拓展和获取更加准确的关键词

  • 了解领域内已经被占领的研究内容

  • 获取领域内必读的重要文献

  • 了解领域相关的重要期刊

  • 梳理研究进展,了解当下研究热点

  • 定位主题在领域内的位置,确认创新性和有效性

    两种文献综述方法的比较

传统方法:

  1. 选择文献数据库

  2. 输入关键词进行检索

  3. 初筛文献,导入文献管理系统软件

  4. 通过泛读和精读,总结归纳

  5. 不断重复2,3,4步

优化方法:

  1. 选择文献数据库

  2. 利用限定关键词进行检索

  3. 利用文献分析工具获取领域关键信息

下文将以我之前的论文主题  “城市植物叶片中多环芳烃的城乡分布特征”  为例,进行实例演示。

0 前期准备

0.1 Bibliometrix库的安装

0.1 Bibliometrix的安装

x,公众号:KvasirBibiometrix库的安装

Bibliometrix的实质:对文献检索结果进行排序、聚类等统计分析并进行可视化的R包。

Biblio已经加入交互工具Shiny,这使得“non-coder”也能够轻松实现原R包的全部功能;事实上,对于“coder”来说,Shiny的加入也可以免去不必要的代码输入,大大简化工作流程。原包和交互界面的一些介绍,可参考师弟的文章。

0.2 Bibliometrix的介绍和使用

ClarkD,公众号:段造了解一个全新领域有没有什么更好的办法?

1 获取文献检索结果

文献检索的结果是文献分析的基石,数据必须可靠,否则会影响最终的分析效果,所以必须对文献检索结果的质量进行控制。

获取高质量文献检索结果的关键在于选择和组合合适的关键词

当我们对不熟悉领域进行文献检索时,关键词的作用应是限定一个“相对大的、可供分析”的文献范围,因此,需要选择“相互独立的最低上位词”作为关键词。

1.1 选择最低上位词

-什么是最低上位词

--距离“未确定的研究对象”的最近上位词,以及“已确定的研究对象”

以示例课题中的“多环芳烃”为例,相关关键词的层次为(从上位到下位):

POPs(Persistent Organic Pollutants)-持久性有机污染物Hydrocarbon-烃类物质PAHs (Polycyclic Aromatic Hydrocarbons)-多环芳烃BaP (Benzoapyrene) -苯并[a]芘在确定研究对象是多环芳烃时,最低上位词为多环芳烃;在未确定研究对象,只知课题背景是关于城市污染物研究的情况下,则应选择POPs或者Hydorcarbon作为最低上位词。1.2 相互独立,完全穷尽(MECE分析法)Mutually Exclusive Collectively Exhaustive关键词选取准确,无重叠,完全覆盖目标研究领域以示例课题为例:“城市植物叶片中多环芳烃的城乡分布特征”,构建关键词组合。例1:"urban" AND "plant" AND "leaf" AND "PAHs" AND "gradient" AND "distribution" AND "pattern"解析:

  1. urban选取不够准确
  2. plant 和 leaf ,pattern和distribution存在重叠

改1:"urbanization" AND "leaf" AND "PAHs" AND "gradient" AND "distribution"解析:未考虑同义词、变体和最小上位词改2:"urban*" OR "gradient" AND "leaf" OR "monitor*" OR "biomonitor" AND "PAHs" 解析:

  1. urban,gradient词义相近,使用布尔运算符合OR并
  2. urban意在描述城市和城市化,同义词有urbanization,替换词有urbanisation,使用截词符*
  3. leaf不是确定的研究对象,应使用最小上位词“生物监测器”biomonitor,同时考虑替换词monitor和monitoring
  4. distribution可能过于限制研究内容,考虑先行删除

输入关键词1.3 文献检索结果获取利用Web of Science文献数据库,输入关键词,选择“WoS核心合集”,进行文献检索。WoS检索界面检索得到834篇文献,导出为“.txt”格式,并合并压缩成.zip文件。(WoS每次只能导出500条记录,故需导出两次)WoS文献检索导出界面2 Bibiometrix的交互可视化文献分析2.1 导入数据打开R,运行以下代码加载Bibiometrix包,打开交互界面Biblioshiny (这之后就可以和R说再见了)

library('bibliometrix')biblioshiny()

Biblioshiny 可视化窗口导入.zip文件,开始分析,成功后,右侧会显示所有文献的各个字段的清单,可保存bibliometrix文件,便于下次直接导入使用。Data工具栏和字段清单2.2 Filter:过滤器可选取时间段,可导出所有字段清单至Excel中。Filter 工具2.3 DataSet:字段信息概览2.3.1 Annual Scientific Production 文章发表趋势由图可得,2017年至今该主题的研究较为热门,证明该领域的研究基础已经较为完善,被占领的研究内容和方向可能较多。2.3.2 Three-Fields Plot “三字段桑基图”比较实用的字段包括“Keywords”,“Keywords Plus”,“References”,“Authors”,每个矩形都可拖动,便于区分。    由图可实现关键词拓展和同义词修正内容方面:    source appointment -来源解析    exposure-暴露    biomarker/biomonitoring-生物监测    accumulation-积累特征存在介质方面:    sediment-沉积物    soil-土壤    air/ambient air/atmosphere/air pollution    大气相关污染物:    heavy metals-重金属    PM2.5/PM10-亚微米级颗粒物    pcbs-多氯联苯2.4 Source :重要期刊的筛选Source 结果一览上图中的图题即为选择的功能,包括:

  • Most Relavent Sources “主题相关期刊”
  • Most Local Cited Sources “当前数据库中的高被引期刊”
  • Source Clustering 基于“布拉德福定律”划分的核心期刊区
  • Source Impact 期刊影响力(基于H指数)

    得到四张图列出的期刊,观察或导出表格取交集,就可以得到几个重要期刊"Science of the Total Environment""Chemosphere""Environmental Pollution""Atmosphere Environment"Source Dynamics 期刊动态变化期刊动态变化图图中红圈圈出的三个期刊,相关文章发表的数量逐年增加,而且未出现拐点,说明这三个期刊近年来比较愿意接受这个主题的文章,这是一个能够增加中稿率的关键信息。2.5 Author:重要作者筛选作者的分析功能和方法类似于2.4期刊的筛选,包括:

  • Most Relavant Authors  主题最相关作者
  • Author Impact  作者影响力排序
  • Most Local Cited Author  高被引作者

Author 结果一览与2.4期刊处理方法相同,取交集4-10个,可以得到几个重要作者De Nicola FAlfani AHarner TJones KC

2.6 Documents:关键词获取

Documents功能中虽然集成了重要参考文献的筛选,但个人认为,该功能较为鸡肋,原因是缺少题名字段,因此将在2.7中介绍重要文献的获得。Keywords Plus:由WoS增加的与原文章相关的关键词,但是非作者本人添加,可增加文章在相关专题下的命中率。    有三个比较实用的功能,高频词列表,词云和词树,其中高频词列表导出直接可作为关键词的补充,比上文提到的桑基图更为直接;而词云和词树可视化的作用居多,仅供直观的参考。高频词可视化Word Growth 高频词和主题趋势    为研究方向的选择提供参考高频词趋势图 1从上图可以看出,PAHs(多环芳烃)的研究热度逐年递增,部分领域(PM, Source Appointment, Air)热度递增,部分领域(Urban)热度递减高频词趋势图 2由上图可得近年来的新兴方向,如“Risk Assessment”, “Spatial Distribution”, “Health Risk”等。上面两张图的区别可能在于,图1的纵坐标是每年关键词出现的次数,图2的纵坐标可能是关键词出现次数的标准化数据(关键词出现次数占当年关键词总次数的比例),且图2显示无重复,说明可能只在关键词标准化次数最大值的年份标注。2.7 重要文献的获取“Author's Production over Time ” 的妙用Documents中的文献功能虽然也给出了类似“2.4 作者”和“2.5期刊”的柱形图的表格,但并不实用,原因在于缺乏题目字段,因而无法直接获取关键词,无法判断文献是否属于自己想要阅读的。反而在Author功能中有一个功能极为实用,“Authors' Production over Time”,推荐导出表格,操作如下图:Author‘’s Production over Timee: Export Tableexcel中包括高被引作者文章的题目、期刊、链接、总引和年均引五个字段,可浏览题目选择感兴趣的关键词,按照期刊排序,选择高影响因子的期刊文章;按照总引排序,选择高被引文章,点击链接直接进行转到,下载或在线阅读。在浏览器地址栏输入https://doi.org/+“DOI”字段里的值即可直接访问。Table例如,浏览题目后发现第一篇就与我们的主题极为相关,“冬青叶片中的PAHs积累量”,在地址栏输入“https://doi.org/10.1016/j.envpol.2007.08.008”即可。Paper Example2.8 Conceptional Structure:梳理概念结构侧重梳理主题发展,特别地,对综述性文章的撰写极为有用。2.8.1Thematic Map “主题四象限图”纵坐标密度,横坐标中心程度(领域内)。

  • 第一象限:既处于领域中心且发展好
  • 第二象限:发展好但位置相对边缘
  • 第三象限:密度低且不是领域内中心,可能是新兴主题或过气主题
  • 第四象限:处于领域中心但缺乏发展的主题

总体来说,第一、二象限属于热门学科但被占领的研究内容可能较多,三、四象限属于新兴或待发展主题,创新性和潜力较高。Theme Map    上图可得,我们的主题部分关键词属于第三象限,但如果单纯研究“urban”和“PAHs”缺乏创新性,可以考虑结合主题演进,选择新兴的热门主题进行主题交叉。2.8.2 Theme Evolution “主题演进图”主题演化图:1997年至今可按照需求,划分时间节点,研究不同时间段内的主题热度。我们将主题以2008, 2013, 2017三个时间点划分为四个时间段,主要分析2017年至今(近3年)。主题聚类图:2017年至今从第二象限来看,近三年的研究较为分离,若考虑将关键词交叉研究,可能会出好结果,师姐前段时间新鲜出炉的7分Sci就是将第二象限中的“land-use”, “biomonitor” 和“PAHs”结合。从第四象限来看,近三年的研究中,我们主题中的关键词“distribution”, “urban”, “passive sampler” (leaf) 仍处于集中但研究较少的阶段,证明我们的主题仍然是当下的热点;同时与健康相关的“健康暴露”和“与室内空气的关系” (“cancer-risk”和“indoor air”)可能是未来的研究热点3 总结1. 利用Bibliometrix及其交互界面,我们实现了以下重要目标:

  • 拓展和获取更加准确的关键词
  • 了解领域内已经被占领的研究内容
  • 获取领域内必读的重要文献
  • 了解领域相关的重要期刊
  • 梳理研究进展,了解当下研究热点
  • 定位主题在领域内的位置,确认创新性和有效性

2. 在文献引用网络和文献分类方面,Biblio的可视化较差,可考虑使用HistCite, CitNetExplorer等引文分析分类软件。3. Bibliometrix目前仅支持部分数据库(Web of Science, Scopus, Dimension, PudMed, Cochrane)。4. Biblioshiny的出现基本拜托了R的桎梏,大大简化工作流程。相关资料1Bibliometrix官网:https://bibliometrix.org/index.html.2Bibliometrix文章原文:Aria, M., & Cuccurullo, C. (2017).Bibliometrix:An R-tool for comprehensive science mapping analysis. Journal of Informetrics,11(4), 959-975. 10.1016/j.joi.2017.08.007.2020/08/13-翻书:biblio,biblio,biblio.-合书:bilibli.

快速列出所有字段_快速掌握目标课题的研究现状 | 应用实例相关推荐

  1. 爬壁机器人外文文献_仿生爬壁机器人的研究现状

    仿生爬壁机器人的研究现状 黄 伟 [摘 要] 本文首先阐述了爬壁机器人的发展前景,然后对国内外仿生爬壁机器 人研究现状进行了分析,通过分析发现小型仿生爬壁机器人的研究在构型设计. 步态分离设计等方面仍 ...

  2. 快速 开发平台 架构_快速介绍清洁架构

    快速 开发平台 架构 by Daniel Deutsch 由Daniel Deutsch 快速介绍清洁架构 (A quick introduction to clean architecture) I ...

  3. python快速查找_python应用_快速查找 | 学步园

    快速查找 import random def partition(list_object,start,end): random_choice = start#random.choice(range(s ...

  4. 快速运行python虚拟环境_快速入门Python 最新最流行的pipenv虚拟环境

    2018的PyCon把最新型最先进的Python虚拟环境pipenv吵得火热.看了下介绍感觉真的很好用,它在virtualenv的基础上包装了一些更便捷的功能,解决了很多很多virtualenv欠缺的 ...

  5. 土地利用覆被变化的概念_土地利用/覆被变化(LUCC)研究现状与展望

    自1987年世界环境与发展委员会明确提出 "可持续发展"的 概念后,已得到各个国家的积极响应."可持续发展"已经 成为各国的重要发展战略之一.1992年6月,在 ...

  6. 目标跟踪的研究现状和最新资源

    http://www4.comp.polyu.edu.hk/~cslzhang/CT/CT.htm 通过上面这个网址可以找到很多,而且有demo下载 http://vision.ucsd.edu/~b ...

  7. 笔记《基于无人驾驶方程式赛车的传感器融合目标检测算法研究及实现》

    论文结构 关键字:无人驾驶方程式赛车,相机,激光雷达,目标检测,传感器融合 一.绪论 1. 感知技术研究现状 1.1.1 基于相机的目标检测技术研究现状 1.1.2 基于激光雷达的目标检测技术研究现状 ...

  8. 目标检测的国内外研究现状

    国内外目标检测的研究现状正在迅速发展,特别是在深度学习方面,已经取得了显著的进展.最近,基于深度学习的目标检测技术,如Faster R-CNN.YOLO.SSD等,已经被广泛应用于人工智能领域,取得了 ...

  9. 程序员小sister的烦恼_快速上手大数据ETL神器Kettle(xls导入mysql)

    我正在参加年度博客之星评选,请大家帮我投票打分,您的每一分都是对我的支持与鼓励. 2021年「博客之星」参赛博主:Maynor大数据 https://bbs.csdn.net/topics/60395 ...

最新文章

  1. python 交互图形 bokeh学习总结
  2. Java library util_sdejavautil.dll,下载,简介,描述,修复,等相关问题一站搞定_DLL之家
  3. python struct.pack()函数 (返回一个字节对象,其中包含根据格式字符串fmt打包的值v1,v2,...)
  4. php中的rtrim_php中ltrim()、rtrim()与trim()删除字符空格实例
  5. Angular 如何根据一个 class 的定义和数据,动态创建一个该类的实例
  6. 互联网金融又任性撒钱了
  7. 阶段1 语言基础+高级_1-3-Java语言高级_06-File类与IO流_07 缓冲流_5_BufferedWriter_字符缓冲输出流...
  8. bp神经网络预测未来数据,bp神经网络如何预测
  9. abaqus如何并行计算_Abaqus软件与并行计算的硬件配置
  10. 带宽、线速、吞吐量概念
  11. 开手游该如何选用服务器?
  12. Python解析页面国家码
  13. Python实战——选择最佳旅游攻略,让旅游更加便捷(爬虫实战)
  14. oracle的LAST_DAY()函数
  15. Python单元测试unittest测试框架
  16. 白魔法师--图的连通块问题(牛客小白月赛25)
  17. mysql启动时自动启动event事件
  18. 2021牛客寒假训练营5D石子游戏(差分)
  19. windows无法访问指定设备 路径或文件(100%解决)
  20. 2020年12月国产数据库排行榜:榜首TiDB 2.7亿融资再破纪录;openGauss晋级十强!

热门文章

  1. 嵌入式linux的运行过程,ARM嵌入式设备Linux系统启动步骤和方式
  2. like效率 regexp_Oracle 中like效率 正则表达式 浅析
  3. ipynb是什么文件_数据科学家的神器:为什么大家都用Kaggle?
  4. Party at Hali-Bula UVA - 1220(树形dp)
  5. AdaBoost算法详解与python实现
  6. 计算机软件技能高考好考么,湖北技能高考:上不了本科,优先考虑这4所一档高职...
  7. java选择是否弹窗_java Swing 点击对话框选择是或者否后又再次弹出刚才关闭的对话框...
  8. 编写mysql的工具_自己编写的数据库工具类
  9. *PAT_B_1024_Java(20分)
  10. 为什么要学python-为什么要学 Python?