『中文、英文词频统计分析软件』免费工具分享
越来越多的人开始意识到词频统计的重要性:
比如一个做插画自媒体新人,想要了解插画在小红书都有哪些高频的需求,于是获取了1000篇关于插画的笔记,统计其中的高频词,便知道需要更新什么方向上的内容才能收货粉丝、流量;
又比如你想知道一个社区为什么活跃,有哪些运营套路可以参考,可以获取社区中几千个标题,经过词频统计分析便能够知道大家都集中讨论什么样的话题,也能够快速了解运营一个社区都有哪些可能的玩法… 小到分析一篇文章,大到舆情分析,几乎都有词频统计的身影。
对比了一下市面的词频统计工具,发现几个问题:
分析的量受限制
功能不太齐全,比如自定义方面
大部分都是收费的工具
一些简单的功能其实excel就能搞定
于是,还是决定自己 python 一个词频分析工具来用。
主要是结合结巴分词来做,稍加优化便可以实现更多的功能,比如百度推广关键词分组,英文分词等等
工具简单,分享给大家免费使用:
下载地址 :
链接: https://pan.baidu.com/s/1pyX6cyBMnrkjKWVVPb_1yg
提取码: dx59
主要功能:
首先介绍一下分词工具的一些支持的功能:
『文本分析量』:我自己测试了大概500多万字符,没啥问题
『自定义词典』:支持
『停用词典』:支持
『是否支持英文』:支持
『分析准确度』:高
『词频数据下载』:支持,自动写入到 txt 文件
『生成词云图』:支持
使用教程(共 3 步):
下载之后会得到 3 个文件夹,一个 exe 格式的软件,如图所示:
重要提示:请勿修改文件夹名称及文件名称,否则软件无法正常运行~
词频统计分析工具 : 下载解压后的全部文件,箭头指示的就是执行文件
第一步:『粘贴文本』—— 将要分析的文本放入 “2_分析”中的 txt 文件当中
这里举例,我放入了豆瓣线上活动的标题一共 3000个,均为参加人数超过1000人的活动
分析这些热门的豆瓣活动有些什么特征
第二步:『运行程序』—— 双击运行 “keywords.exe”
软件会提示输入 3 个参数:①提取多少个高频词、②是否去掉单个字、③保存文件名称
如图所示:
这里我分别输入:20、1、豆瓣线上活动
分析完毕之后会生成一张词云图,点击保存按钮即可保存
词频统计中
词频统计结果以及生成的词云图
第三步:『查看结果』—— 打开文件 “3_结果”下的 txt 文件
特殊功能说明:
在【1_配置】文件夹下有两个文件:停用词 与 自定义词:
停用词
自定义词
一、停用词
通常我们在分析文本的时候,会发现有很多词是一些常用词,对于词频分析来说意义并不大,比如英文中的 “a、an、the、of、for、on” 等等,中文中的 “的、地、得、不仅、不然、而且、那么、它、他、她” 等等。
在分析大量文章的时候就会发现词频统计结果中有大量的这类词汇,真正有意义的词却被淹没在其中。因此停用词功能的主要作用就是去除掉这类的词汇。—— 目前我采用了 4 个停用词库的合并结果:
可以通过这里查看具体的词库:https://github.com/goto456/stopwords
中文停用词表
哈工大停用词表
百度停用词表
四川大学机器智能实验室停用词库
如果在做词频统计时发现有一些词虽然是高频词,但对于分析来说无特殊意义,添加到停用词表中即可(一行一个)
简单来说就是高频无意义,添加到停用词当中。
二、自定义词
比如有一些词具有行业特征或者是网络新词,比如有的行业当中 主攻文、主受文 是词,是不能被分开的,就添加到自定义词当中。
由于最近我自己也在做一些词库整理,所以默认在 自定义词表 当中添加了一些新媒体相关的词汇,比如:kol、新榜、5118、完美日记、up主、博主、百大、b站、人人秀、代运营、媒想到 等词汇。
简单来说就是你认为应该是一个词的但是被工具拆分成了一个一个的字,就将词添加到自定义词当中。
最后,再发一下下载地址:
链接: https://pan.baidu.com/s/1pyX6cyBMnrkjKWVVPb_1yg
提取码: dx59
自己写的词频统计软件,如果工具对你有帮助,点个赞支持一下呗 ~
『中文、英文词频统计分析软件』免费工具分享相关推荐
- Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
- Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
- Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
- 字符串操作、文件操作,英文词频统计预处理
1.字符串操作: 解析身份证号:生日.性别.出生地等 凯撒密码编码与解码 网址观察与批量生成 (1)解析身份证: 编译结果: (2)凯撒密码编码与解码 编译结果: 2.英文词频统计预处理 下载一首英文 ...
- 【作业】组合数据类型练习,英文词频统计实例
1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. 1 score = list('012332211') ...
- 组合数据类型练习,英文词频统计实例9-21
1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. >>>score=list('212 ...
- 组合数据类型练习,英文词频统计实例上(2017.9.22)
字典实例:建立学生学号成绩字典,做增删改查遍历操作. sno=['33号','34号','35号','36号'] grade=[100,90,80,120] d={'33号':100,'34号':90 ...
- 组合数据类型,英文词频统计
练习: 1.总结列表,元组,字典,集合的联系与区别. 列表 [,] 有序,可变,值可以重复 元组(,) 有序,不可修改,不可重复 集合可以用set()函数或者{}创建 用,分隔,不可有重复元素,是无序 ...
- 字符串、文件操作,英文词频统计预处理
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646 1.解析身份证号码 源代码 citizenID = input( ...
- 组合数据类型练习,英文词频统计实例上
1.name=['陈楠芸','陈文琪','刘书签','杨必须'] scores=[7,6,6,5] d={'陈楠芸':7,'陈文琪':6,'刘书签':6,'杨必须':5} print(d) #增加 d ...
最新文章
- Cell Reports:中科院动物所魏辅文组解析大熊猫肠道菌群季节性变化的功能
- docker 绑定固定ip 跨主机容器互访
- visual studio 重命名项目和程序集名称
- Java项目经验——程序员成长的关键
- 企业运维笔试考题(1)
- Java命令行界面(第18部分):JCLAP
- centos 6 安装mysql,CentOS6.5安装MySQL教程(完整教程)
- zend连接mysql_zend_db连接mysql(附完整代码)
- 关于CMS垃圾回收器的几个问题
- 查看Mysql实时执行的Sql语句
- 【C#】【Thread】BackgroundWorker的使用
- wxWidgets第十七课 采用AGG渲染库
- Oracle实例恢复
- iframe src 不加载页面_iframe和frame的区别是什么?iframe和frame的区别总结
- mysql备份怎么锁库_MySQL锁(一)全局锁:如何作全库的逻辑备份?
- Playmaker节点工具使用(三)—扩展playmaker
- html 的title中显示网页logo
- 优酷土豆实时推荐系统架构升级实践
- vue项目使用svg图片
- 网络安全工程师的入门学习的路径
热门文章
- 计算几何——多边形面积
- 利用ArcGIS的计算几何批量计算线要素长度
- 大学一年级计算机科学与技术教材,计算机科学与技术系授课计划及课程表一年级.PDF...
- 深海迷航坐标传送代码_深海迷航 代码整合
- 【Dart语言第1篇】基础学习
- Chrome 扩展程序 CrxMouse Techzero优化版 更新至 v3.0.4
- win10图片浏览改回原来win7的模式
- Windows 启动 Idea 报错 if you already hava a 64-bit JDK ... 以及 failed to create jvm...
- 大前端:数据可视化 大屏设计工具整理
- ICCV2021 多目标跟踪(MOT)汇总