python 词语频率统计_计算词和词组频率的Python nltk
我正在使用NLTK并尝试将单词短语计数到特定文档的某个长度以及每个短语的频率.我将字符串标记为获取数据列表.
from nltk.util import ngrams
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.collocations import *
data = ["this", "is", "not", "a", "test", "this", "is", "real", "not", "a", "test", "this", "is", "this", "is", "real", "not", "a", "test"]
bigrams = ngrams(data, 2)
bigrams_c = {}
for b in bigrams:
if b not in bigrams_c:
bigrams_c[b] = 1
else:
bigrams_c[b] += 1
上面的代码给出和输出如下:
(('is', 'this'), 1)
(('test', 'this'), 2)
(('a', 'test'), 3)
(('this', 'is'), 4)
(('is', 'not'), 1)
(('real', 'not'), 2)
(('is', 'real'), 2)
(('not', 'a'), 3)
这是我正在寻找的部分内容.
我的问题是,是否有更方便的方法来说明长度为4或5的短语而不重复此代码只更改计数变量?
python 词语频率统计_计算词和词组频率的Python nltk相关推荐
- python 进程生命周期_计算客户生命周期价值的python解决方案
python 进程生命周期 By Lisa Cohen, Zhining Deng, Shijing Fang, and Ron Sielinski 由丽莎·科恩,志宁邓,石井方和罗恩Sielinsk ...
- 利用python进行词频统计_利用python做词频计算(word-count)
主要针对英文文本做出词频计算,因为英文是用空格作为词语分割的.中文需要用到分词的库. 下面就用奥巴马的一片演讲做词频计算 1,分析的文本 speech_etxt = ''' My fellow cit ...
- python对excel数据统计_数据分析EPHS(4)-使用Excel和Python计算数列统计值
前面环境都搞的差不多了,这次咱们进入实战篇,来计算一列的统计值.统计值主要有最大值.最小值.均值.标准差.中位数.四分位数.话不多说,直接进入正题. 本文介绍使用Excel和Python来计算上述统计 ...
- 如何用python完成基本统计信息计算_如何用python计算基本统计值?
如何用python计算基本统计值? 用python计算基本统计值的代码为def getNum(): #从控制台获取多个不确定数据的方法 nums = []; iNumStr = input(" ...
- python excel筛选统计_懂点EXCEL就行!教你利用Python做数据筛选(上)
前言 Python的数据清洗功能有多厉害,相信不用我说大家都知道了,寥寥几行代码便可以把一份杂乱无章的表格给处理的干干净净.但是python也是不容易入门的,毕竟编程语言要理解和精通也是要花不少功夫的 ...
- python模型部署方法_终极开箱即用的自动化Python模型选择方法
python模型部署方法 Choosing the best model is a key step after feature selection in any data science proje ...
- python科目真题_不止金融行业, 全民都在学Python
在大家的印象里,想进入金融行业或者数据岗位,首先需要精通Excel. 然而野村证券副首席数字官马修·汉普森在上周五的伦敦Quant Conference上发表讲话: "现在走进交易大厅,用E ...
- 如何确定python对应电脑版本_查看Anaconda版本、Anaconda和python版本对应关系和快速下载...
官网 查看Anaconda版本 (C:\ProgramData\Anaconda3) C:\Users\Administrator>conda -V conda 4.3.30 Anaconda和 ...
- python怎么输出浮点数_【数会小课堂】Python知识第二弹
通过上次的学习我们已经对python有了一定程度的了解,今天,我们来进一步学习有关Python中的变量与简单数据类型的内容. 01 Python中的变量 变量一般是用于储存信息的字符.变量在大多数编程 ...
最新文章
- Go 学习笔记(79)— Go 标准库 net(获取本机IP地址)
- java面试 拦截器问题_面试必问:给我说一下Spring MVC拦截器的原理?
- 看京东系统架构师如何让笨重的架构变得灵巧
- python3 module 'pexpect' has no attribute 'spawn' 解决方法
- python编程入门经典实例-编程语言入门经典100例【Python版】
- wxWidgets:wxStdInputStream类用法
- TOMCAT websocket 多连接内存泄漏与jetty对比分析
- AI是计算机科学,人工智能计算机科学(79种)...
- 输入学生的个数,姓名,成绩,然后按照学生的成绩的降序来打印学生的姓名
- 关于Tortoise git汉化包装了,不管用,仍然是英文菜单的问题记录
- 一个自动动态播放图片的类(downmoon)新增图片效果
- pp助手苹果版本_苹果开放10.33降级通道,附降级教程及可降机型
- 通达信标记符号_通达信添加标记符号
- c语言系统垃圾清理软件,c语言中加入“一键清理系统垃圾”的代码怎么实现?...
- 云计算和web服务器应用,基于云计算的Web服务选择及应用研究
- 骑士旅行问题(骑士走棋盘)
- Git:SSL错误导致失败的解决办法
- PC上网页端屏蔽知乎上的视频
- sublime 正则跨行匹配
- SiteServer CMS 响应式模板中心上线啦