SATI 文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics, SATI),旨在通过对期刊全文数据库题录信息的处 理,利 用一般计量分析、共现分析、聚类分析、多维尺度分析、社会网络分析等数据分析方法,挖掘和呈现出美 妙的可视化数据结果。通过免费、共享软件功能及开源、增进代码实现,旨在为学术研究提供期刊文献数据统计与分析的辅助工具。

             SATI V3.0下载

http://pan.baidu.com/share/link?shareid=4911&uk=3238469186

SATI V3.1下载:

http://pan.baidu.com/share/link?shareid=107855&uk=3238469186

        SATI V3.2下载

               http://pan.baidu.com/share/link?shareid=133442&uk=3238469186


     图1 SATI软件主界面
    
    技术方法
    国外关于文献信息统计分析的技术方法和应用软件相对较为成熟,已有社会网络分析软件Ucinet(嵌入开源软件Pajek, Netdraw 和Mage)、科学计量学研究软件Bibexcel、文献可视化信息分析软件Citespace等,但这些软件都主要针对Web of Science (WoS)等国外数据库平台开发,需要专门的数据输入格式,对于国内期刊全文数据库题录数据不能直接处理。为兼顾处理国内期刊题录数据和国际WoS题录数据,本文尝试设计开发对国内外期刊数据库进行文献题录信息统计分析的统一软件。
    技术方法的关键在于对国内和国际期刊全文数据库所导出题录数据的兼顾处理,设计思路是先将不同来源的数据格式统一转换为SATI处理的XML格式,抽取指定字段信息得出条目元素(即词条,本文“词条(Term)”指语句元素的最小单元,可以是字、词或短语,包括关键词、主题词、文本预处理后的分词等受限词或自然词)的频次统计文档,再分析知识单元间的共现关系和频率分布,生成共现矩阵、分布矩阵和文档词条矩阵,继而实现对海量文献信息的定量分析和可视化呈现。
     
     图2 SATI设计思路

    按此思路,我们首先对国内三大期刊全文数据库知网、万方和维普的题录数据格式进行细致的分析,找出了三大主流输出格式EndNote格式、NoteExpress格式和NoteFirst格式题录数据的字段信息特征;然后分别提取用于区别不同字段的标识符和词条的分隔符(如NoteExpress格式题录数据中,关键词字段的标识符是“{Keywords}:”,关键词之间的分隔符是“;”或“;;”,但不同数据库平台和期刊会稍有不同,需进行特殊处理),利用同样的方法再同时对WoS导出的HTML格式题录进行特征分析,通过编程实现抽取不同字段信息,转换生成为SATI软件专用的XML格式文件;在自动导入转换后的XML文件后,基于抽取出的相应字段信息,再利用频次统计算法得出词条频次统计文档;然后将频次降序排列表中相应数量的条目元素作为知识单元按照适当的算法模型构建出共现矩阵、分布矩阵和文档词条矩阵。设计思路如图1所示。 
    为便于后期数据的进一步处理和可视化呈现的需要,软件可同时生成Excel格式矩阵和.txt文本格式全矩阵。只要将共现矩阵文档导入相应的数据分析软件(如Ucinet、SPSS等),即可构建出知识单元聚类图、多维尺度分析图、共现关系网络知识图谱和战略坐标图等。
    
    功能实现
    目前软件主要实现了以下四大功能:

  1. 题录格式转换:支持输入WoS数据库平台导出的HTML格式、国内期刊全文数据库导出的EndNote格式、NoteExpress格式和NoteFirst格式题录数据。对英文题录关键词、主题词、标题和摘要字段进行文本预处理(Tokenization, Stop Words & Stemming )操作,中文题录标题、摘要进行中文分词和停用词处理后,将其自动转化为XML格式SATI专用数据文件,以为后期题录数据的存储、交换和分析提供便利。 SATI专用数据文件(XML格式)采用简洁的三层树状结构,实例如图2所示。用户可将期刊全文数据库导出的题录文件导入SATI自动生成XML格式专用文件,或根据实际需要将相关数据文件自行转换为SATI处理所需格式。

  2.     图3 SATI自动转换生成的专用数据格式实例
  3. 字段信息抽取:在“Options”面板可以选择抽取标题、作者、第一作者、文献来源、出版年、关键词、主题词、摘要、机构、地址、文献类型、引文、语种、DOI和URL等字段信息,并可保存为.txt文本文件。还可利用“Refine”面板按照出版年和文献来源进行数据集合的限定,并在此基础之上进行下一步的统计分析。
  4. 词条频次统计:根据抽取到的字段信息对条目元素(包括:关键词、主题词、作者、引文、机构、发表年、期刊、文献类型等)的频次进行统计和降序排列,同样可以按照时间和期刊对数据进行限定,生成相应频次统计文档,并可保存为.txt文本文件。
  5. 知识矩阵构建:软件可生成三类共八种矩阵。
    • 1、词条共现矩阵。可自行设定共现矩阵输出行列数,将频次降序排列表中的相应数量条目元素作为知识单元进行运算,以构建知识单元共现关系矩阵(分相似矩阵、相异矩阵、多值矩阵和二值矩阵四种,包括关键词共现矩阵、主题词共现矩阵、引文共现矩阵、作者共现矩阵和机构共现矩阵等);其中,为消除多值共现矩阵中频次悬殊对统计结果造成的影响,软件采用Equivalence系数(公式一所示)将多值矩阵转化为 [0,1]区间取值的相似矩阵,在此基础之上再生成二值矩阵和相异矩阵。相似矩阵中的数字代表矩阵元素间的相似性,数值越大关联程度越强。又因相似矩阵中的0值过多,统计时容易造成误差过大,软件在此基础之上自动生成相异矩阵,即相似矩阵值与-1的和为相异矩阵元素的值。
          
    • 2、频率分布矩阵。可自行设定条目元素(词条)数,生成词条的逐年分布矩阵(分频次矩阵和频率矩阵两种)。分布矩阵的行与词条元素对应,列与发表年相对应。其中,频次矩阵元素值为词条在某年出现的频次,频率矩阵元素的值(公式二所示)为词条在某年的频次与当年所有词条频次总和的商);
          
    • 3、文档词条矩阵(Document-Term Matrix):依据文本预处理结果,生成文档——词条矩阵(分多值矩阵和二值矩阵两种,包括文档——标题词矩阵、文档——关键词矩阵、文档——主题词矩阵和文档——摘要词矩阵)。多值矩阵元素的值为词条在文档中出现的频次,二值矩阵元素的值为其布尔值。文档词条矩阵的行与文档ID相对应,列与词条相对应,文档词条矩阵可用于文本向量的构建,利用向量空间模型(VSM)做进一步数据挖掘。

待生成Excel格式和.txt文本格式的知识矩阵数据后,可将相应矩阵文档导入数据分析软件(如SPSS、Ucinet、Netdraw等)以生成各种基本图表、聚类图、多维尺度分析图、共现网络知识图谱等。

SATI 国产文献题录信息统计分析工具:简介相关推荐

  1. 知网研学导入文献题录和引用文献的方法

    步骤一:在百度学术上找到文献,点击引用 步骤二:在弹出的页面点击RefMan,自动下载文献题录信息,下载后不用对文件改名 步骤三:打开知网研学,点击导入题录 步骤四:在弹出的页面,点击"选择 ...

  2. 如何用python获取文献_[python]eutilities获取文献题录

    之前这篇文章(路人乙小明:用entrez eutilities来查pubmed文献)提过如何利用entrez eutilities查找文献.当时在最后面获取论文摘要和题录的部分直接用了text的模式. ...

  3. Zotero安装配置插件教程: 多端同步、自动翻译、抓取题录信息、参考文献等

    Zotero 作为一款文献管理软件,支持Windows.MacOs.Linux.IOS等,且可以保持多端同步,即在不同的设备和操作系统上(甚至包括网页版)能保持文献.笔记等内容的完全同步 选择 Zot ...

  4. python知网工具,一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录...

    cnki-spyder-tool 一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录 范例 使用时需要将文件tool.py放在正确的位置 import sys sys.path.appe ...

  5. Endnote | 如何快速分享文献给别人(包含题录+备注+pdf文件)| endnote保存备份

    endnote文献分享与保存备份 一.保存备份 二.压缩库(.enlx) 三.保存备份与压缩库的优缺点 之前写过一篇zotero与endnote之间互转的文章( Zotero | 文献的导入及导出 | ...

  6. 文献管理与信息分析笔记——科研入门及十大信息源

    目录 1. 信息源简介 2. 十大信息源 2.1 图书 2.2 期刊 2.3 会议文献 2.4 学位论文 2.5 标准 2.6 专利 2.7 科技报告 2.8 政府出版物 2.9 产品资料 2.10 ...

  7. 文献管理与信息分析笔记之十大信息源

    文章目录 1 背景 2 信息源分类 2.1 专利 2.1.1 检索方式 2.1.1.1 中国专利检索 2.1.1.2 外国专利检索 2.2 会议文献 2.2.1 检索方式 2.3 期刊 2.3.1 影 ...

  8. 学习笔记:MOOC 文献管理与信息分析

    学习笔记:MOOC 文献管理与信息分析 文章目录 学习笔记:MOOC 文献管理与信息分析 前言 本科硕士博士的差异 科研的特性 读研的意义 学习策略 学习与搜索 两种类型的知识 什么是需求? 搜商 基 ...

  9. 一种辅助整理知网论文题录文档的方法(Excel、Word)

    知网导出的题录文件通常用于NoteExpress.EndNote等文献管理软件,想要做成表格一览无余或是Word文档怎么操作呢? 继之前写过的一篇WoS英文题录翻译整理之后,本次尝试将知网导出的题录文 ...

  10. 文献管理与信息分析课程分享

    课程的第1大部分主要是关注如何提升学习效率,第2部分主要是关于如何提升科研效率,这两部分的核心内容主要都是围绕信息而展开的.第3部分关于提升创新能力,这部分主要是围绕"时间"展开的 ...

最新文章

  1. AI时代竟有智能化鸿沟,具备哪些条件才能跨过?
  2. C 语言获取系统时间
  3. 灰度图像--图像增强 平滑之均值滤波、高斯滤波
  4. Egret之JSZip高级应用:压缩JS
  5. 算法打卡39:喷水装置
  6. matlab cd参数,MATLAB变量参数列表​
  7. pip 安装mmcv
  8. python怎样缩进语法边界-Python的基础语法
  9. matplotlib创建图的基本方法
  10. win10自带的打印机服务器,win10系统开启打印机服务的操作方法
  11. 【postgresql 数据库运维文档】
  12. 毫米和像素怎么换算_像素和毫米怎么换算啊??
  13. 【剧透】2017云栖大会•北京峰会——企业云上业务优化专场
  14. 大白菜无法打开计算机硬盘,大白菜pe系统检测不到硬盘怎么办?
  15. 蓝桥杯算法提高试题 学霸的迷宫(BFS)
  16. (转)windows 7兼容软件列表搜集加转帖
  17. 免费实时汇率查询Api接口
  18. php相同数据合并单元格,jQuery_基于jQuery的合并表格中相同文本的相邻单元格的代码,ONE 已经生成的数据表格大致 - phpStudy...
  19. 移位操作---左移和右移
  20. Win8安装驱动时提示“哈希值不在指定的目录文件中”的解决办法

热门文章

  1. Windows XP 启动NetMeeting
  2. sublime php测试,sublime phpcs代码检查配置
  3. 男人至死是少年,我在GitHub找到了我们的童年经典
  4. 从Cadence发展史中,看EDA的一段江湖故事
  5. xml.html一键解密工具,华为配置加解密工具
  6. 关于一般公司加密软件的处理程序实现解密方法
  7. 书单:交互设计书籍推荐
  8. linux 小度wifi,树莓派2小度wifi(MT7601U)驱动
  9. 小度wifi当无线网卡
  10. 【Lua指南】lua脚本世界--快速入门