『中文、英文词频统计分析软件』免费工具分享

越来越多的人开始意识到词频统计的重要性：
比如一个做插画自媒体新人，想要了解插画在小红书都有哪些高频的需求，于是获取了1000篇关于插画的笔记，统计其中的高频词，便知道需要更新什么方向上的内容才能收货粉丝、流量；
又比如你想知道一个社区为什么活跃，有哪些运营套路可以参考，可以获取社区中几千个标题，经过词频统计分析便能够知道大家都集中讨论什么样的话题，也能够快速了解运营一个社区都有哪些可能的玩法… 小到分析一篇文章，大到舆情分析，几乎都有词频统计的身影。
对比了一下市面的词频统计工具，发现几个问题：

分析的量受限制
功能不太齐全，比如自定义方面
大部分都是收费的工具
一些简单的功能其实excel就能搞定
于是，还是决定自己 python 一个词频分析工具来用。

主要是结合结巴分词来做，稍加优化便可以实现更多的功能，比如百度推广关键词分组，英文分词等等

工具简单，分享给大家免费使用：

下载地址：
链接: https://pan.baidu.com/s/1pyX6cyBMnrkjKWVVPb_1yg

提取码: dx59

主要功能：
首先介绍一下分词工具的一些支持的功能：

『文本分析量』：我自己测试了大概500多万字符，没啥问题
『自定义词典』：支持
『停用词典』：支持
『是否支持英文』：支持
『分析准确度』：高
『词频数据下载』：支持，自动写入到 txt 文件
『生成词云图』：支持
使用教程（共 3 步）：
下载之后会得到 3 个文件夹，一个 exe 格式的软件，如图所示：

重要提示：请勿修改文件夹名称及文件名称，否则软件无法正常运行~

词频统计分析工具：下载解压后的全部文件，箭头指示的就是执行文件

第一步：『粘贴文本』—— 将要分析的文本放入 “2_分析”中的 txt 文件当中

这里举例，我放入了豆瓣线上活动的标题一共 3000个，均为参加人数超过1000人的活动

分析这些热门的豆瓣活动有些什么特征

第二步：『运行程序』—— 双击运行 “keywords.exe”

软件会提示输入 3 个参数：①提取多少个高频词、②是否去掉单个字、③保存文件名称

如图所示：

这里我分别输入：20、1、豆瓣线上活动

分析完毕之后会生成一张词云图，点击保存按钮即可保存

词频统计中

词频统计结果以及生成的词云图

第三步：『查看结果』—— 打开文件 “3_结果”下的 txt 文件

特殊功能说明：
在【1_配置】文件夹下有两个文件：停用词与自定义词：

停用词
自定义词
一、停用词

通常我们在分析文本的时候，会发现有很多词是一些常用词，对于词频分析来说意义并不大，比如英文中的 “a、an、the、of、for、on” 等等，中文中的 “的、地、得、不仅、不然、而且、那么、它、他、她” 等等。

在分析大量文章的时候就会发现词频统计结果中有大量的这类词汇，真正有意义的词却被淹没在其中。因此停用词功能的主要作用就是去除掉这类的词汇。—— 目前我采用了 4 个停用词库的合并结果：

可以通过这里查看具体的词库：https://github.com/goto456/stopwords

中文停用词表
哈工大停用词表
百度停用词表
四川大学机器智能实验室停用词库
如果在做词频统计时发现有一些词虽然是高频词，但对于分析来说无特殊意义，添加到停用词表中即可（一行一个）

简单来说就是高频无意义，添加到停用词当中。

二、自定义词

比如有一些词具有行业特征或者是网络新词，比如有的行业当中主攻文、主受文是词，是不能被分开的，就添加到自定义词当中。

由于最近我自己也在做一些词库整理，所以默认在自定义词表当中添加了一些新媒体相关的词汇，比如：kol、新榜、5118、完美日记、up主、博主、百大、b站、人人秀、代运营、媒想到等词汇。

简单来说就是你认为应该是一个词的但是被工具拆分成了一个一个的字，就将词添加到自定义词当中。

最后，再发一下下载地址：

链接: https://pan.baidu.com/s/1pyX6cyBMnrkjKWVVPb_1yg

提取码: dx59

自己写的词频统计软件，如果工具对你有帮助，点个赞支持一下呗 ~

『中文、英文词频统计分析软件』免费工具分享相关推荐

Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
字符串操作、文件操作，英文词频统计预处理
1.字符串操作: 解析身份证号:生日.性别.出生地等凯撒密码编码与解码网址观察与批量生成 (1)解析身份证: 编译结果: (2)凯撒密码编码与解码编译结果: 2.英文词频统计预处理下载一首英文 ...
【作业】组合数据类型练习，英文词频统计实例
1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. 1 score = list('012332211') ...
组合数据类型练习，英文词频统计实例9-21
1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. >>>score=list('212 ...
组合数据类型练习，英文词频统计实例上（2017.9.22）
字典实例:建立学生学号成绩字典,做增删改查遍历操作. sno=['33号','34号','35号','36号'] grade=[100,90,80,120] d={'33号':100,'34号':90 ...
组合数据类型，英文词频统计
练习: 1.总结列表,元组,字典,集合的联系与区别. 列表 [,] 有序,可变,值可以重复元组(,) 有序,不可修改,不可重复集合可以用set()函数或者{}创建用,分隔,不可有重复元素,是无序 ...
字符串、文件操作，英文词频统计预处理
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646 1.解析身份证号码源代码 citizenID = input( ...
组合数据类型练习，英文词频统计实例上
1.name=['陈楠芸','陈文琪','刘书签','杨必须'] scores=[7,6,6,5] d={'陈楠芸':7,'陈文琪':6,'刘书签':6,'杨必须':5} print(d) #增加 d ...

『中文、英文词频统计分析软件』免费工具分享

『中文、英文词频统计分析软件』免费工具分享相关推荐

最新文章

热门文章