ROST作为一款优秀的内容挖掘工具,在自然语言处理上提供一系列能够快速上手使用的功能,其中"分词"功能也是广为使用的。我们在对文本进行分词处理的过程中,由于词库是固定的,所以不管是用哪一款分词软件,也都有可能出现分词结果中没有你想要的那个词,即使这个词确实是在文本中存在的。下面我们主要讲解分词的操作过程和自定义词的添加过程。

下面我通过实际应用场景来说明一下,前面我的一篇文章《毕业论文写什么——微博数据挖掘相关的论文》其中有一块分析,专门对微博数据挖掘相关的论文的标题做了分词和统计分析,就用到了分词处理功能。本文还是以那个数据集为例进行讲解。

数据集下载:知网微博数据挖掘研究分析-"论文主题"字段数据

数据进行共享了,有兴趣的话可以自己试验一下。

一.用ROST进行分词处理

在我们常见的研究场景中,分词以后基本上都要做词频统计,所以我们考察 "分词-词频统计"联合在一起的操作过程。下面的操作过程可以看到,ROST把这两个过程明确分开,要做两步。

1.用ROST进行分词

ROST不支持对excel文件进行分词,所以先将刚刚的实验数据复制到txt文档中,如下。

选择"功能性分析" > "分词",将刚刚准备的txt文档导入后点击"确定"。

ROST分完词之后会自动将分词结果打开,文件储存在分词文件所在的路径中,可以看到结果已经进行分词了。

2.用ROST进行词频分析

接着我们要将分词处理后的文档进行词频分析,选择"功能性分析" > "词频分析(中文)",将刚刚分词后的txt文档导入后点击"确定"。

当然,在点击"确定"之前你可以进行如下设置:

"启用过滤词表"、"启用归并词群表"、"启用保留词表"默认是勾选的

"不输出词频"默认是不勾选的,勾选了的话那么最后的结果文档中只有一个词频文本结果,不会有相应的词频展示

对输出文本的长度进行设置

对输出文本的数量进行设置,默认是只输出词频统计排名前300的词语

词频分析完后结果还是会默认展示出来

3. 用ROST添加自定义词

浏览了一圈之后(或者是CRTL+F调出搜索台进行搜索)发现并没有诸如"社会网络分析"、"社会网络、"数据挖掘"这些我理想的分词结果啊。

回到文章刚开始提到的"词库",因为ROST"词库"里头没有这些词语,所以它的分词结果以及词频统计中没有这些词,如果希望ROST能将分词中包含这些词,就要补充这个"词库",这样我们就可以自定义词组了。

ROST的自定义词添加过程有些复杂,如果对自然语言处理(NLP)技术有研究的读者可以看出来,ROST添加的自定义词放在专门一个词表中,会用在后续的分词和词频统计中。

首先,我们先通过ROST来自定义词组,要补充ROST的"词库",找到"user"文件夹下的"user.txt"文档,将要补充的词在后面补充即可。

这里我补充了"社会网络"、"社会网络分析"、"数据挖掘"这三个词语。

然后重复刚刚的"分词 > 词频统计"步骤,可以看到最后词频统计结果中出现了刚刚添加的这三个词语,说明ROST识别到了词库的更新。

ROST对这三个词的词频统计结果分别是:

社会网络:67

数据挖掘:51

社会网络分析:25

二.用集搜客进行分词处理

1.用集搜客进行分词和词频统计

接着用集搜客分词软件进行分词,前面我们说过,在研究了多个优秀分词软件以后,希望开发出一款简单易用的软件,即使计算机基础很薄弱,都可以做分词和统计分析。所以,分词-词频统计 是一步到位的,甚至都可以用集搜客的微信小程序——分词作业帮,在手机上完成这个工作。

进入该分词软件之后先导入实验数据,这里以excel格式文件为例,集搜客分词软件支持Excel、PDF、Word、txt,而且可以通过微信小程序把收到的文件直接导入到集搜客分词系统中。

导入之后产生一个分词任务,可以在"我的任务"中看到。如果进入"筛选词语"页面,就可以看到分词产生的词语已经按照词频高低进行了排序。

此时,可以直接进入后面的三个页面(选词结果、打标结果、分词结果)中的任何一个导出分词结果。导出的结果是一个ZIP文件,最多含有四张表,有

分词效果表:一行原始内容对应一行经过分词的内容

打标结果表:如果筛选了词语,就有这种表,把每条原始内容含有的词语罗列出来

切词表:就是通常所说的词频表

选词结果表:跟切词表一样的结构,但是只有筛选过的词,如上图,很多高词频的词是无助于分析的,甚至会干扰分析结果

可见,一个导入操作就可导出词频表。

集搜客分词打标工具的特色从第二个网页"筛选词语"开始,我们知道,在一篇文章中,可能大量的高频词是没有分析价值的,那么集搜客分词打标工具允许用户手工筛选词语,只保留研究课题相关的词。筛选词是按照词频排序的,因为词语的频率越小,它其实分析的价值可能越小(不总是正确,按照流行的搜索算法,少见的词含有的信息量可能更大),而词频排在TOP前面的才是用户需要分析的对象,所以把前面筛选完以后,后面的可以不用看了。

来到第三页"选词结果",我们已经手工选出来的课题相关的词有哪些,他们对应的例句是什么。

如果再看"打标结果"和"分词效果"两个页面,是比较独特的,一句话出现了哪些特征词,都罗列出来。如果执行导出,可以把句子和词表的对应矩阵导出来,可用于向量空间计算。

2.用集搜客添加自定义词

在选词结果、打标结果和分词效果页面上,都可以手工添加词语,集搜客的添加词语就是添加词语,不用管系统的词库,就是把漏掉的词补充到分词结果中,所以,只管添加好了,添加以后立即生效,会自动把含有这个词的句子匹配出来,形成分词效果对应关系。

例如,发现集搜客分词结果中也没有"社会网络"、"社会网络分析"、"数据挖掘"这三个词语。

下面看下这三个词的词频统计结果,分别是:

社会网络:91

数据挖掘:50

社会网络分析:25

3.词频统计对比

通过对比,ROST和集搜客的词频统计结果不同。

下面进行验证一下。

通过对比,集搜客分词软件的分词准确率比较高

End

作者:华天清

python软件和rost软件哪个更好_ROST-CM软件分词和词频统计用法体验相关推荐

  1. python字频统计软件_python结巴分词以及词频统计实例

    python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...

  2. python分词和词频统计

    Python大数据:jieba分词,词频统计  黑冰中国 关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学 ...

  3. Python中文分词及词频统计

    Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...

  4. python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

    本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...

  5. Python制作炫酷的词云图(包含停用词、词频统计)!!!

    Python制作词云图(包含停用词.词频统计) 话不多说,直接先上词云效果图!!! 想根据自己喜欢的颜色.字体.以及背景蒙版制作词云图吗?别急,往下看! 分词以及词频统计的代码片段: (包含停用词库: ...

  6. Python大数据:jieba分词,词频统计

    实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理 了解Jupyter Notebook 概念 中文分词 在自然语言处理过程中,为了能更好地处理 ...

  7. python统计词频_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  8. python 小说词频统计_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  9. 【Python】英文文本分词与词频统计(split()函数、re库)

    英文文本分词 1.知识准备 (1)Python中的split()函数的用法 了解split()的基本用法 (2)python多个分割符split字符串 了解re库的部分用法 Python strip( ...

最新文章

  1. fedora linux操作系统安装,Fedora-10 Linux操作系统的安装,Fedora Linux的安装锦集收藏,图文并茂详解...
  2. 中断处理函数中自旋锁的应用
  3. 论文,成本管理与进度管理(主成本)
  4. 这个被称为20世纪最伟大人物的最强理科生,到底有多强,你根本不了解
  5. CSS清除默认样式,面试篇
  6. 动态css语言less,less让css具有动态语言的特性
  7. 明天 | 2021单细胞组学国际研讨会(线上)【附直播链接】
  8. edge如何导入html文件收藏夹,win10浏览器 edge浏览器收藏夹怎么导入?
  9. Windows服务器系统的端口要求
  10. 12、NIO--Path、、Paths、Files
  11. android 刷机时缺少驱动无法识别
  12. linux 命令:zip 详解
  13. 面试后要请你吃饭_面试官发出这5个信号,暗示你面试基本成功了,请做好准备!...
  14. 保险合同中的“不可抗辩条款”
  15. java设置列宽_java用POI设置Excel的列宽
  16. ES6--Reflect
  17. 解读:【阿里热线小蜜】实时语音对话场景下的算法实践
  18. 简约至上(交互设计四策略)
  19. 12864液晶屏驱动源码分享
  20. P5520 [yLOI2019] 青原樱(排列组合)

热门文章

  1. Kodu的下载与安装---Kodu少儿编程第二天
  2. 2018双11万家互联网门店参战:看苏宁的撩人新姿势
  3. Android 系统自带图片裁剪功能(适配7.0、8.0、对了还有小米手机)
  4. 如何禁止NavigationController的向右滑动返回
  5. IBM员工回顾与华为合作20周年:这是一支有激情的团队
  6. window 下载安装minio
  7. android端集成FTP文件下载功能
  8. 【DeepLearning】吴恩达深度学习课程笔记思维导图
  9. 回收站清空的文件怎么恢复?失易得这样恢复
  10. maven(视频学习)