SATI程序及源码下载地址:http://liuqiyuan.com/#sati

网上对于SATI的介绍相对来说还是比较少的,而这款程序确实很好。所以本着造福大家的心态,再此撰文一篇。

使用过SATI程序的人可能会很郁闷,有的功能看着有就是用不了,以为是自己的问题。其实不是,这其实是软件本身的BUG导致的,源程序其实并没有针对国内用户做过特定的优化,所以用户体验度不高,而原作者给出的只是一篇论文和他的网站博客来对程序进行说明,论文下载地址如下,有兴趣想要去研究的可以看下。

刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,(01):50-58.

作为一个入门级程序员,纯粹出于业余的爱好来学程序设计,所以有些内容写的不是太好或不全面,还望高手不要见笑。SATI是基于C# .net famework4开发的。在原著作者的论文中将这款工具的功能总结为四点:

1.、题录数据格式转换;

2、字段信息抽取;

3、词条频次统计;

4、知识矩阵构建;

下面就这四个方面谈谈程序的操作方法和一些注意事项:

首先,程序要工作需要输入数据,程序支持导入原生的由本程序产生的已完成转换的XML文件。当然,你也可以导入由其他数据库导入的专门的数据题录格式文件,然后转化为程序支持的XML文件。程序主要支持当前国内三大主流题录数据输出格式->End-Note格式、NoteExpress格式、NoteFirst格式(建议,如是导出CNKI的题录数据,请导出为End-Note格式,万方的请用NoteExpress格式导出,维普的请用NoteFirst格式导出),本文以CNKI导出的End-Note格式为例进行程序操作讲解。

关于导出End-Note格式题录数据。请登录到CNKI官网,然后,搜索你要的结果,返回为:

到这个页面之后,点击"导出"到:

按上图操作然后跳转到:

按上面的操作一步一步来,最后你就会得到一个txt纯文本格式的End-Note题录数据源,然后打开SATI,一定要记住,其他数据库直接导入的题录文件如果不是本程序专用的XML格式数据源,一律是不能用的。如图:

(由于我个人对这个程序进行了优化,所以我这个程序界面有些地方和源程序不一样)打开程序后,点击"单文件";在返回的对话框里选中你刚下载下来的那个txt文件,确定后,在格式下拉框中选择你要导入的数据格式,在本例就是End-Note,点击转换,得到一个XML文档,默认文件名为XML_SATI.xml,我们保存它。然后程序自动对这个文件进行列表处理:

到此我们已经成功导入了一个单文件,但是由于一些数据库只能同时导出一定数量的题录信息,无法导出我们想要的那个数量,该怎么办?程序提供了一个文件夹按钮,你点击它之后返回一个对话框,让你选择一个文件夹,而这个文件夹你必须全部放你从比如说CNKI等全文数据库上面导出的一个一个的题录数据文件(你上面下载下来的那个文件,CNKI一页最多只能列50个项目,当然,知网是支持你在这个页面全选,到下一个页面在全选它会叠加,但是,在有些数据库是没有这么强大的功能的还是得自己一页一页的导出数据),这个文件夹最好不要有其他的文件,而只能是你即将要转换的数据题录源文件。

这里为什么要加这个去重啦?就是要保证你在导入多个文件时,不经意间连你自己都不知道导入了重复的记录。为了提高数据分析的可靠性,我们必须要加这个去重,然后,你就能得到你想导入的题录信息。程序返回同导入单文件是一样会自动在下面那个文本框里面列出数据。这就是程序提供的第一个功能:题录格式转换的操作方法。还有在导入多个文件并开启去重之后,在本地计算机会生成两个文件,如图:

XML_SATI.xml是一个汇总文件,XML_SATI.xml_DR.xml是去重后程序生成的内容,而我们要使用的也是这个文件。 好,现在我们已经完成了一个题录数据文件的转换,它转换为程序支持的XML格式的题录格式文件,这样你下次就不用再进行一次格式转换,直接导入这个xml文件即可。

点击上面那个XML按钮,会弹出一个对话框,选中你要导入的那个已经转换好了的XML文件即可,这样你就能导入你转换后的那个xml文件。当然,如果你了解xml文件的话,你也可以自己编写这个文件。这个xml文件是三层结构的。

具体的字段信息如下:

DT:表示文献类型,如期刊文献为Journal Article,主题论文为Thesis等

AD:表示机构

TI:表示题名

SO:表示来源

TIss:题名关键字抽取

PY:发布nian份

IS:发布月份

KWs:关键词

AB:摘要

ABss:摘要关键字抽取

SP:开始页码

EP:结束页码

AUs:作者

AFs:第一作者

DOI:数字对象唯一标识符

id:记录编号(程序自动生成)

上面的字段对应于程序的选项组。

   关于字段信息的抽取。字段信息的抽取是在你成功导入xml文件之后进行的后续操作,在进行字段信息抽取之前,必须要在选项组里头选择一个选项,程序默认是关键词选项。每个选项对应于xml文件的每一个字段名称,当你选中一个选项,然后点击下方的"字段抽取"按钮。在下面的文本框里面就会返回抽取的字段信息。

   关于频次统计。原程序在频次统计这里有一个BUG,导致程序核心功能一直用不了,我将其修复了。频次统计如上面操作一样,先要在选项里面选好字段,这里我们选择程序默认的关键词选项,然后点击频次统计,程序会在下面的文本框里返回相应的频次统计信息。在本例中选择关键词,返回的是一个个的关键词在文献中的出现频次统计。

   关于矩阵生成。这是程序最核心的功能,程序提供三类共八种矩阵生成模式,矩阵其实就是一个对称的数据表,可以把它理解为一个excel表格,它最终也会产生一个excel表格。本文只介绍一种矩阵生成模式,那就是程序默认的相似矩阵生成模式。所谓相似矩阵其实就是一个二维表坐标系,x轴每个项代表你针对某个选项,比如说关键词,所抽取生成的关键词散列分布,y轴也是这个散列分布。感觉有点抽象,我们先生成一个矩阵来看看。

(首先一定要谨记!在生成矩阵之前,一定要点击频次统计按钮进行频次统计操作。如果你不先进行频次统计直接点矩阵生成,程序会报错,因为频次统计的结果将是你进行矩阵生成的输入数据,切记!)

如上图,请注意,当你导入数据后,看下文本框列表中id字段最下面的那个最大的id号,程序默认Rows的值是100,当你的这个id号比100大时,不用输入rows值,默认就好,只有当你的id最大值比100要小,那请在此输入你的最大的那个id值。在生成矩阵的选择框里面记得选好你要生成的矩阵模型,(similarity)指代相似矩阵,也是程序默认要生成的矩阵,其他矩阵模型请参见上面的论文。点击矩阵生成后,程序会在程序下面的文本框里面返回具体的项值,同时生成一个excel报表,当然,你的电脑必须安装有Windows的office程序,不然无法生成excel报表。

我们看到,相似矩阵就是上面的这个表一样的东西,也叫共现矩阵,横轴与纵轴对称相等,中间两个坐标项重合的部分叫对角线,本例就是上图斜着,值为1的你那个部分,这个二维表里面的每一个具体的值是如何产生的啦?每一个值都是这两个关键词在总的记录中一起出现的频次计数,对角线的值就是这一个关键词出现的总的频次计数。程序在产生这个频次计数之后,再将这个频次计数去乘一个平衡系数E,关于这个数学公式大家可以去看上面的那篇论文,最后,程序会将这个相乘之后的值在四舍五入,保留四位小数点之后呈现给我们。

   最后,关于SATI就介绍到这里吧,关于矩阵的使用,大家自己去尝试,原理跟相似矩阵差不多,还有多值矩阵和二值矩阵,多值矩阵的值没有乘以那个系数,就是原生的频次计数。二值矩阵的值只有0和1,仅此而已,1代表在一起出现了,0则没有。相异矩阵就是取反,具体请参见论文中对几个矩阵的解释。生成的矩阵可以直接导入到SPSS、Ucinet等软件中生成可视化结果,进行多维尺度分析。程序还内置了一个数据可视化分析分析工具NetDraw,就在右下角那个NetDraw按钮。点击就能打开使用了。

   补充,程序默认文本预处理选项组中的netDraw复选框是勾起状态,它被选中,则程序在每次生成前四种矩阵模型时自动生成一个vna文件到程序所在目录下的NetDraw文件夹中,在用NetDraw软件打开这个vna文件就会生成一个知识网络图。

当然,这个知识网络的显示样式可以自己调,我比较懒,就不预先去调了。

我修改后的程序下载地址:http://pan.baidu.com/s/1eQ6V9Uq

如果打开程序之后会弹出一个js脚本错误,没有关系,点击确定即可,在使用教程里一样可以看到这篇文章。

如果打开程序后出现安全证书不可用,也没有关系,点击继续即可,程序依然可以正常使用的。

如果打开程序文件,出现没有.net framework4.0错误,那是你的机器没有安装.net环境造成的,你可以自己上网下载.net framework4.0的运行环境,我这里给出一个下载地址:http://pan.baidu.com/s/1bnDhxs7

转载于:https://my.oschina.net/u/2368515/blog/528907

SATI--文献题录开源程序相关推荐

  1. 知网研学导入文献题录和引用文献的方法

    步骤一:在百度学术上找到文献,点击引用 步骤二:在弹出的页面点击RefMan,自动下载文献题录信息,下载后不用对文件改名 步骤三:打开知网研学,点击导入题录 步骤四:在弹出的页面,点击"选择 ...

  2. 如何用python获取文献_[python]eutilities获取文献题录

    之前这篇文章(路人乙小明:用entrez eutilities来查pubmed文献)提过如何利用entrez eutilities查找文献.当时在最后面获取论文摘要和题录的部分直接用了text的模式. ...

  3. python知网工具,一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录...

    cnki-spyder-tool 一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录 范例 使用时需要将文件tool.py放在正确的位置 import sys sys.path.appe ...

  4. Endnote | 如何快速分享文献给别人(包含题录+备注+pdf文件)| endnote保存备份

    endnote文献分享与保存备份 一.保存备份 二.压缩库(.enlx) 三.保存备份与压缩库的优缺点 之前写过一篇zotero与endnote之间互转的文章( Zotero | 文献的导入及导出 | ...

  5. 一种辅助整理知网论文题录文档的方法(Excel、Word)

    知网导出的题录文件通常用于NoteExpress.EndNote等文献管理软件,想要做成表格一览无余或是Word文档怎么操作呢? 继之前写过的一篇WoS英文题录翻译整理之后,本次尝试将知网导出的题录文 ...

  6. 小程序源码:网课查题微信小程序源码下载,题库资源丰富自动采集,支持语音拍照识别

    这是一款网课查题微信小程序源码 题库资源丰富自动采集, 支持语音拍照识别 该款采用接口方式,所以题库自动全网采集 而且该款小程序无需服务器和域名即可搭建 大家解压源码然后使用微信开发者工具打开源码 然 ...

  7. 为了考研,我制作了一款考研题库小程序

    一.初衷 在公众号达到一定的关注量后,就有不少小伙伴问我,什么时候可以做个考研刷题小程序啊?这样我们就可以随时随地地刷题了,并且利用好零碎时间进行查漏补缺. 于是,快速制作了刷题小程序v1.0版本上线 ...

  8. 基于微信小程序云开发实现考研题库小程序项目(完整版)

    今天手把手的带大家实现一款答题类的题库小程序,如果着急的话,可以直接去看文末源码.下载与项目部署. 考研题库小程序云开发实战,完整版提供给大家学习.题库小程序,基于云开发的微信答题小程序,软件架构是微 ...

  9. [电离层建模学习笔记]开源程序M_GIM学习记录

    [电离层建模学习笔记]开源程序M_GIM学习记录 文章目录 [电离层建模学习笔记]开源程序M_GIM学习记录 1. 程序相关信息 2. 程序学习记录 2.1 采用的数据说明 2.2 程序运行前 2.3 ...

  10. noteexpress如何删除和恢复重复题录

    本文转自: http://jingyan.baidu.com/article/cbf0e500d303702eaa2893a1.html 由于题录都不是一次性导入的,很多次导入就会造成有些题录是重复的 ...

最新文章

  1. 日常工作,怎么结合工具设计有效的时间管理?
  2. SQL学习总结-思维导图
  3. 关于验证码整理的新版本
  4. Java到LDAP教程(包括如何安装LDAP服务器/客户端)
  5. CSAPP-计算机漫游
  6. awk 正则表达式、正则运算符详细介绍
  7. 1039. 到底买不买(20)-PAT乙级真题
  8. python右对齐函数_Python这68个内置函数,建议你吃透!
  9. gson下载java_gson.jar
  10. CSS第二章:2.颜色单位(RGB值、RGBA值)
  11. 全局gitignore导致的文件被忽略~“The following paths are ignored by one of your .gitignore files.”
  12. 体验服和平精英服务器维护,和平精英:体验服申请入口
  13. zabbix 批量生成聚合图形
  14. 英语语法 - 可可英语
  15. 抖音短视频数据抓取实战系列(三)——Fiddler抓取抖音用户详细信息数据
  16. 在阿里云服务器发邮件
  17. 用计算机读心书,423世界读书日,线上线下共读华章
  18. zabbix Nginx_low_discover监控设置
  19. ArcGIS总结——矢量数据分析之网络分析(上)
  20. oracle查询job运行状态,查询当前正在执行的job的情况

热门文章

  1. Mac如何用Boot Camp安装Windows 11?告诉你如何安装 能不能安装!
  2. 药店千方百剂系统无法连接服务器,管家婆千方百剂软件常见问题解决办法分享...
  3. Linux 查询和文件名加引号,Linux下vim查看文件名
  4. php redis zset 延迟队列_PHP多进程基于Redis实现轻量级延迟队列
  5. ImageList00
  6. 8086汇编实现 加密解密软件
  7. 人脸关键点数据集整理
  8. 网络安全技术连载(7)网络安全技术实例分析
  9. 漫谈《大型网站技术架构》
  10. 信息系统运行管理员有必要考吗?现在备考还来得及吗?