科技文本数据的采集是分析的基础,当前数据的采集主要是借助科技文献数据库,并采用成熟的文献检索策略进行.
对于科技文本数据而言,索引型数据库通常收录了除正文以外的所有文献信息,而且还增加了数据库本身对论文的分类标引.不同数据库的格式 有一定的差异性.WoS和Scopus的数据结构是最为完整的,Derwent和CSSCI次之,CNKI的完整性最小.CiteSpace分析的数据是以WoS数据为基础的,其他数据库收集的数据都要先经过转换,成为WoS的数据格式才能分析.通常用户收集的文献题录数据都会包含PT(文献类型),AU(作者),SO(期刊),DE(关键词),AB(摘要),CI(机构)以及CR(参考文献).
[注]:CNKI下载的数据没有参考文献信息.
一.中文数据采集
1.CNKI数据采集
(1)进入中国知网首页www.cnki.net。
(2)数据检索策略构建
点击首页右上角的”高级检索”,进入高级检索页面.例:选择”来源期刊检索”,在检索框来源期刊中输入”中国安全科学学报”,匹配方式选择”精确”,时间选择”2019”。
(3)得到检索结果并进行初步分析
CNKI检索的结果中包含新闻,会议通知等信息,因此需要在数据收集时删除(为方便手工删除,可以在下载时逐页检查)。点击”学科”、“发表年度”、“基金”、“研究层次”等,可以对数据的分布进行初步的分析。最后,选定记录。
(4)数据的下载和保存
选定需要下载的数据记录后,点击数据结果页面的“导出/参考文献”进入数据下载页面。
[注]:使用citespace进行分析的文献输出格式为“Refworks”;可输出“Refworks”和“Endnote”两种格式,前者可进行文献可视化分析,而后者可以在论文写作时使用或用于其他文献计量软件的分析。最后,点击“导出”,下载文献。下载时对文献命名为CiteSpace需要的格式“download_XXX”
2.CSSCI数据采集
(1)进入CSSCI首页
在浏览器中输入http://cssci.nju.edu.cn/,进入CSSCI数据库首页。
(2)数据检索和初步分析
选择“高级检索”后进入界面。例:来源期刊输入“管理科学学报”;检索字段选择“期刊名称”,匹配方式选择“精确”;时间选择“2019”,最后点击“检索”按钮,即可得到结果页面。
[注]:对于得到的结果可以进一步进行精炼,也可以作为基本的统计信息来使用。
(3)数据的下载
3.CSCD数据采集
(1)登录数据库
登录Web of Science数据库后,在数据库中选择“中国科学引文索引数据库”。
(2)数据检索条件的输入
在检索页面输入检索条件。
(3)检索结果及导出
在检索结果页面的左侧列出了检索结果更加详细的分布信息。在检索结果页面中,点击“保存为其他文件格式”。
在数据导出界面中,输入要导出的数据编号。记录内容选择“全记录与引用的参考文献”,文件格式选择纯文本。点击发送,将下载的txt文件保存在本地电脑的数据文件夹中。
二.外文数据采集
1.WoS数据采集
(1)登录WoS数据库首页
在IE中直接输入www.webofknowledge.com即可进入该数据库,或者从学校图书馆提供的电子资源列表中找到该数据库进入。
[注]:默认情况下检索的数据会是“All Databases”,此时需要点击并选择“Web of Science Core Collection”即WoS核心数据库。
(2)数据检索策略
例:使用简单检索的字段检索功能,检索字段选择Publications name=Safety Science;Document type=Article;时间选择最长跨度;来源数据库可以选择默认。
(3)结果及其基本分析
当参数设置结束后,点击“Search”进行结果检索。可以点击结果页面右上侧的“Analyze Results”对得到的论文的分布进行描述性统计分析,得到论文的年度分布、作者、机构、国家/地区、基金以及论文的科学分类等信息。通过“Save Analysis Data to File”可以将描述性统计结果导出为txt文档,并可进一步导入Excel中进行绘图分析。
[注]:该步骤可对作者、期刊、会议、领域、时间、发文国家/地区以及发文的语言等进行统计分析。
(4)数据的导出和保存
目前Web of Science仅仅支持每次导出500条数据。步骤:在导出功能区选择Save to Other File Formats(如果需要其他格式的文件,也可以在此选择),进入数据导出页面。在数据导出页面中需要对相关参数进行设置,如我们首先导出前500条记录。在Records中输入1和500,在Record Content中选择 Full Record and Cited References,在File Formats中选择Plain Text,点击send即可下载前500条数据,并按照citespace要求的格式保存为“download_XXX”。
2.Scopus数据采集
(1)登录Scopus数据库首页,并检索2014年发表在Safety Science上的文献题录数据。在检索框中输入“0975-7535”,检索字段选择“ISSN”,点击检索按钮。
(2)结果页面反馈得到2014年发表在Safety Science的论文。用户可在左侧的信息栏中对数据的基本分布进行描述性统计分析。
(3)选中要下载的数据后,在页面上点击导出。进入数据的导出页面,在页面上选择导出的数据格式为RIS格式,数据导出的信息为“所有可用信息”,点击导出。下载结束后会得到一个名为.ris的文件。
3.Derwent专利数据
(1)登录Derwent专利数据库
可通过登录Web of Science后,选择专利数据库Derwent Innovations Index。
(2)数据结果及下载
Derwent数据下载的位置和方法与Web of Science科技论文文献数据下载的一致。
4.OA数据采集
PubMed数据采集
PubMed搜索引擎是美国NCBI(国家生物技术信息中心)开发的免费生物医学信息检索系统,该引擎的数据库来源为MEDLINE,核心主题为医学,也包括其他与医学相关的领域,如护理学或者其他健康学科。
在CiteSpace的页面可以直接对来自PubMed的数据进行检索和分析。
第一步:在CiteSpace功能与参数页面,将分析的数据定位到PubMed。
第二步:与Web of Science的数据分析类似,设置好参数后点击“GO”即可。
[注]:
a.由于从PubMed数据库得到的文献题录中不包含论文的参考文献,因此使用PubMed进行文献的共被引分析时会出现错误。
b.CiteSpace提供的ADS(天文学—物理学),arXiv(天文学—物理学)和NSF(美国科学基金会数据库)为免费开放的数据库,因此可以直接通过CiteSpace嵌入的数据检索功能完成检索和转换。

CiteSpace学习笔记(二)——数据的获取(科技文献检索)相关推荐

  1. 学习笔记之数据可视化(二)—— 页面布局(下)

    续上一章 2.7 地图区域(.map) 2.7.1 实现步骤: 2.8 用户统计模块 2.8.1 布局: 2.8.2 柱状图 2.9 订单模块 2.9.1 订单区域布局 2.9.2 订单区域(orde ...

  2. Colly 学习笔记(二)——爬虫框架,抓取下载数据(上证A股数据下载)

    Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证A股数据下载) Colly 学习笔记(一)--爬虫框架,抓取中金公司行业市盈率数据 Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证 ...

  3. 学习笔记之数据可视化(二)——页面布局(中)

    续上一章 2.6 监控区域布局 2.6.1 布局结构解析: 2.6.2 样式描述: 2.6.3 HTML结构及CSS样式代码 2.6.3 ### 监控区域-效果 2.6.7 点位区域(point) 2 ...

  4. 学习笔记之数据可视化(二)——页面布局(上)

    ~续上一章 2. 项目页面布局 2.1 基础布局 2.1.1 PC端屏幕宽度适配设置 2.1.2 主体容器viewport背景图片 2.1.3 HTML结构 2.1.4 css样式代码 2.2 边框图 ...

  5. Mr.J-- jQuery学习笔记(二十七)--DOM操作方法(删除获取文本)

    清除 <body> <button>调用remove</button> <div>我是div<p>我是段落</p> </d ...

  6. Python学习笔记:用Python获取数据(本地数据与网络数据)

    Python学习笔记:用Python获取数据(本地数据与网络数据) 一.用Python获取本地数据 读写文件(三种基本模式:r, w, a) 1.写文件 2.读文件

  7. JPA学习笔记---JPA数据的操作:增加,删除,修改,获取,使用JPQL进行查询

    JPA学习笔记---JPA数据的操作:增加,删除,修改,获取,使用JPOL进行查询 创梦技术交流平台:资源下载,技术交流,网络赚钱: 交流qq群:1群:248318056 2群:251572072 技 ...

  8. Mysql学习笔记(二)——表格及数据的插入

    Mysql学习笔记(二)--表格及数据的插入 文章目录 Mysql学习笔记(二)--表格及数据的插入 1.Mysql常用指令 2.创建表格 A.数据类型 B.完整性约束条件 3.查看表格 4.修改表格 ...

  9. Spring Boot 框架学习笔记(二)(配置文件与数据注入 yaml基本语法 JSR303数据验证 多环境切换 )

    Spring Boot 框架学习笔记(二) 六.appliaction.properties配置与数据注入 6.1 `@Value`注解 测试注入数据 读取输入流 6.2 读取配置文件数据注入 单文件 ...

  10. [转载]dorado学习笔记(二)

    原文地址:dorado学习笔记(二)作者:傻掛 ·isFirst, isLast在什么情况下使用?在遍历dataset的时候会用到 ·dorado执行的顺序,首先由jsp发送请求,调用相关的ViewM ...

最新文章

  1. android 扫描音乐,native.js扫描android手机本地音乐
  2. springboot开启jms服务监控jvm运行情况
  3. access如何保存小数点后_跟宇哥学习Access数据库是怎样一种体验?(1)
  4. JVM从入门到精通(二):详解Class加载过程,双亲委派机制,编译执行与解释执行
  5. java中实现同步的两种方式:syschronized和lock的区别和联系
  6. java 回归遍历_回归基础:代码遍历
  7. 使用Java成功生成代码的7个技巧
  8. 计算机网络的自我介绍和评价,计算机网络自我介绍范文
  9. win10改成ahci后无法开机怎么办,win10开不了机
  10. ffmpeg实现mp4文件转h264文件
  11. sublime JS Format js格式化工具
  12. win10关闭触摸板自动开启
  13. 【生活日记】  路在脚下,更在心中,心随路转,心路常宽
  14. 最落魄的日子你是怎样熬过来的
  15. powerpoint html文件类型,PowerPoint 2016无法打开此种文件类型怎么办-PPT打不开文件解决办法...
  16. Lombok使用@Data的大坑,空指针错误
  17. 他狂骗五千万美元消失17年...却被一个纪录片导演锲而不舍的追到了镜头前!...
  18. ybt 神(bian)奇(tai)题目总结合集(上)
  19. RASPBERRY PI3 - RPi.GPIO 官方使用文档翻译
  20. 打印空心三角形及菱形

热门文章

  1. 杂项设备驱动框架_干货分享丨轻松玩转 Huawei LiteOS 传感框架
  2. 移动端调试神器vConsole
  3. dataframe保存为txt_PDF怎么转换为PPT?PDF秒转PPT秘技
  4. dll文件怎么编辑_PDF文件怎么编辑?通过这几款软件,让你轻松编辑PDF
  5. android 屏幕密度350 是xh xxh,Android-绘图机制总结
  6. 创客工具 - 芯片模拟器 , 原型
  7. 房产中介预约看房小程序 毕业设计毕业论文 开题报告和效果图参考(基于微信小程序毕业设计题目选题课题)
  8. 《Gartner 2018 BI与数据分析魔力象限》报告解读
  9. 基于matlab测幅值,基于MATLAB的分析测试系统
  10. 博为小帮软件机器人已实现全国中小学学籍卡片自动下载