今天主要跟大家介绍词频分析研究现状、方法及工具。

词频分析是什么呢?词频分析(Word Frequency Analysis)是对文献正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。

词频分析使用现状如何?以中国知网全文数据库(期刊)为检索对象,以“篇名”为检索条件,在617篇论文题目中出现“词频”二字,其中206篇核心期刊;如果以“主题”为检索条件,则有3423条文献以“词频”为主题开展了研究,其中1722篇在核心期刊发表。

由图可知,将“词频”分析工具来队研究对象进行分析,一直都处于增长态势。说明有越多越多的论文开始基于词频分析来开展研究工作。

由上图可知,以“词频”为主题的研究涉及多个学科,其中图书情报与数字图书馆、计算机软件及计算机应用这两个学科方向对“词频”主题的研究较为关注;中国语言文学、外国语言文学、心理学、新闻与传媒、互联网技术、高等教育、教育理论与教育管理等学科方向次之;职业教育、管理学、中医学等其他学科零星涉及“词频”相关研究主题。

要彻底了解词频分析,必须先了解次词频统计方法。TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。感兴趣的小伙伴可以通过百度百科了解该方式的原理及优缺点。http://baike.baidu.com/view/920592.htm

目前,有很多分词软件默认使用TF-IDF技术,后文介绍的几款软件在一定程度上应用了该技术。

SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。它采用的是采集的词频词典,并辅以一定的专有名称、人名、地名、数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90-95%之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用,目前,该技术主要用于网站全文索引领域。网站用的多些。

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),是中国科学院计算技术研究所在多年研究工作积累的基础上,研制出的汉语词法分析系统。该系统主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时还支持用户词典。感觉很牛,不好用。

TF-IDF其实一种算法;而SCWS与ICTCLAS是两种中文词频分析方法。很多词频工具软件,都是基于TF-IDF算法来工作的。接下来我们简单介绍几款软件的使用。

MyZiCiFreq字词频率统计工具,这个工具比较简单。

该软件可以把文章中出现的每个字或者出现的所有的词的次数和百分比都统计出来,支持导出。语文教师和汉语言文学类研究者,可以使用该工具对学生作文或某些专著进行分析。just so so。MyZiCiFreq字词频率统计工具不需要注册,不需要安装,使用起来非常方便,它使用的分词算法在网络上没有搜到相关介绍,不建议在学术论文的写作过程中使用该软件。没事玩玩就行。

ROST WordParser,是由武汉大学沈阳博士开发,比较容易上手。

首先,打开待分析的文档;然后,选择分词按钮,会自动对文档进行分词;之后,再打开词频分析窗口;最后,点词频分析就可以统计词频啦。但是这最后一步会报一个错误,这个错误主要由于写入文件引起的,程序在设计的时候保存路径有问题,少了一个“\”,导致生成的词频统计数据文件没有办法保存,不过这个并不影响使用。点击OK按钮之后,可以直接复制词频统计的数据,然后粘贴到Excel中直接使用。

该软件是内测版本,后期被整合到ROST CM6中。目前,不论ROST WordParser,还是ROST CM6都已经停止更新。虽然这两款软件在分词的准确性方面受到学术界的质疑,但在一些研究论文中却依然可以看到这两款软件的身影。

关于这款软件能否在学术论文中使用,个人认为要看研究的领域,如果在计算机研究领域或者在图书情报研究领域使用这两款软件来写论文,可能会受到质疑,但是在教育类、语言类、文学类等对分词准确性要求不高,或者对发现新词没有过高要求的情况下,还是可以尝试使用这两款软件,特别是ROST CM6在不少学术论文中被引用。

刚发的这个是Rost CM6截图。利用ROST CM6 进行词频分词之前,首先,要对文本文档(txt文档)进行分词,然后,再进行词频分析。ROST CM 6软件功能比较丰富,可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。目前由于该软件平台已经停止更新,所以部分需要联机操作的功能已经失效。但是分词与词频统计功能尚能使用,此外,还有部分单机功能依然可以使用。

下面来说说详细步骤和流程。

选择分词菜单之后,会弹出以上对话框。第一个选项用来选择需要分词的文本文件,点击右侧按钮浏览找到待分词的文件。第二个选项用来设置分词文件保存位置,这里系统会默认保存在软件目录下。第三个选项是用来选择自定义词表的,这个自定义词表需要自己建立,可以将一些分词系统无法识别的专业词汇以文本文件形式保存,然后通过点击右侧按钮将自定义词表加入分词系统中。如果不需要指定自定义词表,可以默认使用ROSTCM6\user\目录下的user.txt文件中的词作为自定义词表。有时候为了省事,可以直接在这个文件之后,追加我们需要添加的新词,每次添加完新词,记得重启一下该软件。以上三个选项设置完成之后,单击确定按钮就可以进行分词啦,分词成功之后会弹出一个文件,可以将这个文件直接关闭,或者另存。不论怎样,关键确认记住分词后的文件保存位置。

成功分词之后,我们开始词频统计,打开词频统计的菜单之后,跳出以下对话框。

根据图上提示,进行操作即可。(注意:需要过滤的词表与自定义词表类似,系统均有默认,可以在系统文件基础上添加自己的过滤词。可在工具/自定义文件 中找到过滤词表与自定义词表。)如果不出什么意外,点击确定之后,分词结果会保存到默认位置,然后弹出一个文本文件,这个文件可以另存,也可以直接关闭。

拿到词频统计数据之后,我们就可以围绕自己研究领域展开想象,开始探索发现之旅。更多关于ROST CM6的使用说明,请参见ROST CM6 使用说明(该文档已经归整理到资源包中了)。

接下来介绍一个简单的小工具:词频分析工具@Excel大全

这个工具主要是利用SCWS分词引擎所开发的一个Excel版的轻量级的在线词频统计分析工具,可以对文本文档中的中英文文字内容进行快速语义分词,统计词汇的出现频次,进行TF-IDF排名,并可显示词语的词性。

它还有一个优点,就是生成的词频数据,直接存在excel当中,非常便于统计与分析。但缺点是,此工具需要联网,而且还需要启用宏。

有关启用宏的方法参考:http://excel365.net/237.html。

刚刚介绍的工具,都是单纯的词频分析工具,没有什么难度。一般如果要发学术论文,其实还是需要用到更多的工具,比如Bibexcel、CiteSpace和SATI等其他共词分析工具。这些工具都是以词频分析为基础。

大家有时间慢慢研究,这些工具都是可以使用的。Rost CM6 使用的时候,有时候联网会尝试连接远程服务器,呈现卡死状态,这个时候,你断网用就可以了。

不过这些工具一般在学术论文中的用的比较少。大家可以在平时研究中作为辅助工具来用。真正依靠词频分析发论文现在远远不够,还是需要学习共词分析、共引分析、社会网络分析等比较深入一点的研究工具。因为词频分析只能看个频次,看不出词与词之间的关系远近。

spss可以关键词词频分析吗_词频分析研究的现状、方法及工具,你值得拥有相关推荐

  1. 电路分析导论_生存分析导论

    电路分析导论 In our extremely competitive times, all businesses face the problem of customer churn/retenti ...

  2. ahp层次分析法_层次分析法在历史街区研究中的应用简析

    摘要 AHP (Analytic Hierarchy Process)层次分析法通常被运用于解决多目标.多标准.多要素.多层次的非结构化的复杂决策性问题,特别是战略决策性问题,在建筑.规划.风景园林等 ...

  3. rda冗余分析步骤_群落分析的典范对应分析(CCA)概述

    典范对应分析(CCA)与去趋势典范对应分析(DCCA)概述典范对应分析(canonical correspondence analysis,CCA)是单峰约束排序方法,是对应分析(CA)与多元回归的结 ...

  4. eds能谱图分析实例_成分分析的四大神器—XRF、ICP、EDX和WDX

    成分分析技术主要用于对未知物.未知成分等进行分析,通过成分分析技术可以快速确定目标样品中的各种组成成分是什么,帮助实验人员对样品进行定性定量分析,鉴别等.今天,小析姐就给大家介绍四种成分分析的常见设备 ...

  5. python 情感分析实例_情感分析实例

    以下的样本代码用Pyhton写成,主要使用了scrapy, sklearn两个库. 所以,什么是情感分析(Sentiment Analysis)? 情感分析又叫意见挖掘(Opinion Mining) ...

  6. 中文路径_中文分词的原理、方法与工具

    海德格尔说"词语破碎处,无物可存在".中文句子不像英文那样的词与词之间有显示空格边界,使得词和词组边界模糊. 为了让计算机更容易理解文本,通常中文信息处理的第一步是中文分词.中文分 ...

  7. python唐诗分析综合_全唐诗分析程序

    全唐诗分析程序 这个程序最初的诞生是为了写微信公众号的两篇文章,那两篇文章的也大致讲解了程序的原理和流程. 因此,在使用程序之前,强烈建议您先读这两篇文章: 相应的,程序也主要有两个方面的功能: 分析 ...

  8. 熊猫烧香分析报告_熊猫分析进行最佳探索性数据分析

    熊猫烧香分析报告 目录 (Table of Contents) Introduction介绍 Overview总览 Variables变数 Interactions互动互动 Correlations相 ...

  9. 智能情绪分析技术_简单分析人工智能的表现在计算机网络应用技术中的优势

    简单分析人工智能的表现在计算机网络应用技术中的优势 大数据时代背景下, 计算机网络技术迅猛发展, 而人工智能技术的发展也进一步推动了计算机网络技术的发展, 两者相互融合, 相互促进, 实现了双赢发展. ...

  10. python房价分析论文_用Python研究了三千套房子,告诉你究竟是什么抬高了房价?...

    关于房价,一直都是全民热议的话题,毕竟不少人终其一生都在为之奋斗. 房地产的泡沫究竟有多大不得而知?今天我们抛开泡沫,回归房屋最本质的内容,来分析一下房价的影响因素究竟是什么? 1.导入数据 impo ...

最新文章

  1. 如何制作出让女朋友满意的大片
  2. leancloud的技术面试指南
  3. SpringBoot整合Redis 主从复制_01
  4. improve怎么加ing_雅思写作7分秘籍:Niko原创大作文写作机经教你怎么得高分!
  5. python语言字符串逆转顺序_Python字符串逐字符或逐词反转方法
  6. python编写米字格的步骤_2分钟学会在Word中制作田字格 米字格 书法练字再也不用买本子了...
  7. Java从服务器下载文件到本地
  8. Mac如何添加打印机
  9. 十五、JDBC(高琪java300集+java从入门到精通笔记)
  10. 【邢不行|量化小讲堂系列06-Python量化入门】极简方法将日线数据转为周线、月线或其他周期
  11. pc端js获取当前经纬度_js获取用户当前地理位置(省、市、经纬度)
  12. 定时器自动装载c语言,定时器初始化新写法
  13. 为什么OFDM抗多径?
  14. 福尔摩斯探案集(上)第四章 亨利·巴斯克维尔爵士
  15. 快手老司机与抖音小姐姐 ,终有一战?
  16. php javascript wav波形绘制,php分析.wav文件并绘制png格式的波形图_php技巧
  17. 二总线-MBus研判
  18. 解决 JSP 页面报错 Unterminated lt;c:forEach tag
  19. 猎聘网面试题:SimpleDateFormat线程安全吗
  20. 淘宝京东拼多多抖音1688苏宁等平台按关键字搜索商品

热门文章

  1. 稳定排序和不稳定排序
  2. 会员积分系统运营的五个操作步骤
  3. 使用linux提交pbs任务:运行matlab或perl程序
  4. 哈哈,没有什么能阻止得了这届父母要卷的决心
  5. 深度学习(三):人脸关键点检测算法
  6. 用redis统计页面的访问量
  7. NBA20-21赛季数据分析 | Python数据分析及可视化实战
  8. 基于spss的正态分布正态性检验
  9. Python的运行加速:C究竟比python快在哪
  10. Android app接入微信人脸支付详解