前面的文章我们专门讲过,为了给没有深厚的计算机基础的研究者使用,GooSeeker分词和文本分析软件工具在开发过程中,参考学习了多个优秀的分词软件,其中就有ROST-CM内容挖掘软件。本文专门针对分词这一个功能专项,对比一下ROST和集搜客分词软件的不同。

ROST作为一款优秀的内容挖掘工具,在自然语言处理上提供一系列能够快速上手使用的功能,其中“分词”功能也是广为使用的。我们在对文本进行分词处理的过程中,由于词库是固定的,所以不管是用哪一款分词软件,也都有可能出现分词结果中没有你想要的那个词,即使这个词确实是在文本中存在的。下面我们主要讲解分词的操作过程和自定义词的添加过程。

下面我通过实际应用场景来说明一下,前面我的一篇文章《毕业论文写什么——微博数据挖掘相关的论文》其中有一块分析,专门对微博数据挖掘相关的论文的标题做了分词和统计分析,就用到了分词处理功能。本文还是以那个数据集为例进行讲解。

数据进行共享了,有兴趣的话可以自己试验一下。

1,用ROST进行分词处理

在我们常见的研究场景中,分词以后基本上都要做词频统计,所以我们考察 “分词-词频统计”联合在一起的操作过程。下面的操作过程可以看到,ROST把这两个过程明确分开,要做两步

1.1,用ROST进行分词

ROST不支持对excel文件进行分词,所以先将刚刚的实验数据复制到txt文档中,如下。

选择“功能性分析” > "分词”,将刚刚准备的txt文档导入后点击“确定”。

ROST分完词之后会自动将分词结果打开,文件储存在分词文件所在的路径中,可以看到结果已经进行分词了。

1.2 用ROST进行词频分析

接着我们要将分词处理后的文档进行词频分析,选择“功能性分析” > "词频分析(中文)”,将刚刚分词后的txt文档导入后点击“确定”。

当然,在点击“确定”之前你可以进行如下设置:“启用过滤词表”、“启用归并词群表”、“启用保留词表”默认是勾选的“不输出词频”默认是不勾选的,勾选了的话那么最后的结果文档中只有一个词频文本结果,不会有相应的词频展示对输出文本的长度进行设置对输出文本的数量进行设置,默认是只输出词频统计排名前300的词语

词频分析完后结果还是会默认展示出来。

1.3 用ROST添加自定义词

浏览了一圈之后(或者是CRTL+F调出搜索台进行搜索)发现并没有诸如“社会网络分析”、“社会网络、“数据挖掘”这些我理想的分词结果啊。

回到文章刚开始提到的“词库”,因为ROST“词库”里头没有这些词语,所以它的分词结果以及词频统计中没有这些词,如果希望ROST能将分词中包含这些词,就要补充这个“词库”,这样我们就可以自定义词组了。

ROST的自定义词添加过程有些复杂,如果对自然语言处理(NLP)技术有研究的读者可以看出来,ROST添加的自定义词放在专门一个词表中,会用在后续的分词和词频统计中。

首先,我们先通过ROST来自定义词组,要补充ROST的“词库”,找到“user”文件夹下的“user.txt”文档,将要补充的词在后面补充即可。

这里我补充了“社会网络”、“社会网络分析”、“数据挖掘”这三个词语。

然后重复刚刚的“分词 > 词频统计"步骤,可以看到最后词频统计结果中出现了刚刚添加的这三个词语,说明ROST识别到了词库的更新。

ROST对这三个词的词频统计结果分别是:社会网络:67数据挖掘:51社会网络分析:25

2,用集搜客进行分词处理

2.1,用集搜客进行分词和词频统计

接着用集搜客分词软件进行分词,前面我们说过,在研究了多个优秀分词软件以后,希望开发出一款简单易用的软件,即使计算机基础很薄弱,都可以做分词和统计分析。所以,分词-词频统计 是一步到位的,甚至都可以用集搜客的微信小程序——分词作业帮,在手机上完成这个工作。

进入该分词软件之后先导入实验数据,这里以excel格式文件为例,集搜客分词软件支持Excel、PDF、Word、txt,而且可以通过微信小程序把收到的文件直接导入到集搜客分词系统中。

导入之后产生一个分词任务,可以在“我的任务”中看到。如果进入“筛选词语”页面,就可以看到分词产生的词语已经按照词频高低进行了排序。

此时,可以直接进入后面的三个页面(选词结果、打标结果、分词结果)中的任何一个导出分词结果。导出的结果是一个ZIP文件,最多含有四张表,有

分词效果表:一行原始内容对应一行经过分词的内容

打标结果表:如果筛选了词语,就有这种表,把每条原始内容含有的词语罗列出来切词表:就是通常所说的词频表

选词结果表:跟切词表一样的结构,但是只有筛选过的词,如上图,很多高词频的词是无助于分析的,甚至会干扰分析结果

可见,一个导入操作就可导出词频表。

集搜客分词打标工具的特色从第二个网页“筛选词语”开始,我们知道,在一篇文章中,可能大量的高频词是没有分析价值的,那么集搜客分词打标工具允许用户手工筛选词语,只保留研究课题相关的词。筛选词是按照词频排序的,因为词语的频率越小,它其实分析的价值可能越小(不总是正确,按照流行的搜索算法,少见的词含有的信息量可能更大),而词频排在TOP前面的才是用户需要分析的对象,所以把前面筛选完以后,后面的可以不用看了。

来到第三页“选词结果”,我们已经手工选出来的课题相关的词有哪些,他们对应的例句是什么。

如果再看“打标结果”和“分词效果”两个页面,是比较独特的,一句话出现了哪些特征词,都罗列出来。如果执行导出,可以把句子和词表的对应矩阵导出来,可用于向量空间计算。

2.2 用集搜客添加自定义词

在选词结果、打标结果和分词效果页面上,都可以手工添加词语,集搜客的添加词语就是添加词语,不用管系统的词库,就是把漏掉的词补充到分词结果中,所以,只管添加好了,添加以后立即生效,会自动把含有这个词的句子匹配出来,形成分词效果对应关系。

例如,发现集搜客分词结果中也没有“社会网络”、“社会网络分析”、“数据挖掘”这三个词语。

下面看下这三个词的词频统计结果,分别是:社会网络:91数据挖掘:50社会网络分析:25

3,词频统计对比

通过对比,ROST和集搜客的词频统计结果不同。

下面进行验证一下。

通过对比,集搜客分词软件的分词准确率比较高

计算机专业学ROSTCM,ROST-CM软件分词和词频统计用法体验相关推荐

  1. python软件和rost软件哪个更好_ROST-CM软件分词和词频统计用法体验

    ROST作为一款优秀的内容挖掘工具,在自然语言处理上提供一系列能够快速上手使用的功能,其中"分词"功能也是广为使用的.我们在对文本进行分词处理的过程中,由于词库是固定的,所以不管是 ...

  2. 计算机专业会学linux编程吗,计算机专业学编程,ubuntu与deepin和centos相比,哪款系统更合适...

    计算机专业学编程,ubuntu与deepin和centos相比,哪款系统更合适 目前在桌面操作系统中,微软的windows在易用性及其生态方面实力最强,不过由于其各方面都非常完善,学编程的话,该系统并 ...

  3. 中专学计算机考,中专计算机专业学什么课程

    [摘要] 中专计算机专业学什么课程考必过小编为大家整理了关于中专计算机专业学什么课程的信息,希望可以帮助到大家! 中专计算机专业学什么课程 中专计算机主要学习的是:学习计算机的基本原理.基本结构.基本 ...

  4. 自学大学计算机专业好,大学计算机专业学自我鉴定(通用5篇)

    大学计算机专业学自我鉴定(通用5篇) 自我鉴定是对自己的政治思想.工作业务.学习生活等方面情况进行评价与描述,它可以给我们下一阶段的学习生活做指导,因此我们是时候回头做好总结.自我鉴定怎么写才不会流于 ...

  5. 济南技校计算机专业学什么,技校计算机专业学什么-邹城

    职业教育门槛低主要体现在两个方面,一是对于学 历的要求低,无论是初中生.高中生.生.大专生.无就业的人员都可以参与到职业教育中,学或者提升技能,以期能够更好地获得就业机会.二是零门槛学,学者无需理论或 ...

  6. 计算机专业期刊参考文献,大学生计算机专业学论文参考文献 大学生计算机专业期刊参考文献哪里找...

    [100个]关于大学生计算机专业学论文参考文献汇总,作为大学生的毕业生应该明白了大学生计算机专业期刊参考文献哪里找,收集好参考文献后的大学生计算机专业论文写作起来会更轻松! 一.大学生计算机专业论文参 ...

  7. 计算机软件英语材料,计算机专业英语阅读材料(多媒体软件).doc

    文档介绍: 计算机专业英语阅读材料(多媒体软件).doc计算机专业英语阅读材料计算机英语(1)DesktopPatternInthegraphicaluserinterfaceofMicrosoftW ...

  8. python字频统计软件_python结巴分词以及词频统计实例

    python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...

  9. python分词和词频统计

    Python大数据:jieba分词,词频统计  黑冰中国 关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学 ...

  10. python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

    本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...

最新文章

  1. 写给对 ”游戏开发” 感兴趣的朋友们
  2. Echarts 自定义数据视图
  3. python调用java的jar包_python调用java的jar包报错127
  4. hⅰgh怎么读音发音英语_gh的发音规律
  5. linux 脚本监控程序,用shell脚本实现监控程序自动重启
  6. 苹果手机录屏软件_手机游戏录屏软件哪个好用 好用手机游戏录屏软件介绍
  7. 微分方程c语言求解,使用C语言解常微分方程 C ODE.doc
  8. 用 Go 手写一个 JSON 序列化器
  9. avi文件是什么?avi文件格式介绍
  10. 全志V3s学习记录(4)uboot:开机logo
  11. Shader(着色)
  12. 广州刷脸支付骗局_刷脸支付骗局你仔细观察一下
  13. 详解多级目标检测体系结构Cascade RCNN
  14. R语言绘图中图片的组合(cowplot、patchwork宏包、layout、par()、gridExtra)
  15. 多租户设计与实践探索
  16. 51单片机学习笔记-3模块化编程
  17. 思科PIX防火墙配置清除
  18. 计世网:人类最迫切需要的10项技术
  19. 打造USB系统维护盘(GRUB,PE),U盘安装ubuntu、fedora、linux、windows
  20. js动态生成html

热门文章

  1. mac 更换默认蓝牙适配器_解决Switch最大遗憾,谷粒ROUTE Air蓝牙适配器:简单好用...
  2. 文件路径的正斜杠(/)与反斜杠(\)
  3. OpenSSL密码库算法笔记——第6.5章 密钥协商
  4. C语言学生管理系统源代码
  5. 出海业务网络加速方案技术能力详解
  6. 基于JavaWEB的学生考勤管理系统
  7. 16年几篇经典论文对比与总结
  8. 诺基亚java软件下载_诺基亚手机安装JAVA软件程序
  9. 华为二层创建vlan_华为二层交换机基本配置命令有哪些
  10. sql请求失败或服务器无即使响应,SQL2005无法启动SQL Server 请求失败或服务未及时响应等问题的解决方案...