我正在使用NLTK并尝试将单词短语计数到特定文档的某个长度以及每个短语的频率.我将字符串标记为获取数据列表.

from nltk.util import ngrams

from nltk.tokenize import sent_tokenize, word_tokenize

from nltk.collocations import *

data = ["this", "is", "not", "a", "test", "this", "is", "real", "not", "a", "test", "this", "is", "this", "is", "real", "not", "a", "test"]

bigrams = ngrams(data, 2)

bigrams_c = {}

for b in bigrams:

if b not in bigrams_c:

bigrams_c[b] = 1

else:

bigrams_c[b] += 1

上面的代码给出和输出如下:

(('is', 'this'), 1)

(('test', 'this'), 2)

(('a', 'test'), 3)

(('this', 'is'), 4)

(('is', 'not'), 1)

(('real', 'not'), 2)

(('is', 'real'), 2)

(('not', 'a'), 3)

这是我正在寻找的部分内容.

我的问题是,是否有更方便的方法来说明长度为4或5的短语而不重复此代码只更改计数变量?

python 词语频率统计_计算词和词组频率的Python nltk相关推荐

  1. python 进程生命周期_计算客户生命周期价值的python解决方案

    python 进程生命周期 By Lisa Cohen, Zhining Deng, Shijing Fang, and Ron Sielinski 由丽莎·科恩,志宁邓,石井方和罗恩Sielinsk ...

  2. 利用python进行词频统计_利用python做词频计算(word-count)

    主要针对英文文本做出词频计算,因为英文是用空格作为词语分割的.中文需要用到分词的库. 下面就用奥巴马的一片演讲做词频计算 1,分析的文本 speech_etxt = ''' My fellow cit ...

  3. python对excel数据统计_数据分析EPHS(4)-使用Excel和Python计算数列统计值

    前面环境都搞的差不多了,这次咱们进入实战篇,来计算一列的统计值.统计值主要有最大值.最小值.均值.标准差.中位数.四分位数.话不多说,直接进入正题. 本文介绍使用Excel和Python来计算上述统计 ...

  4. 如何用python完成基本统计信息计算_如何用python计算基本统计值?

    如何用python计算基本统计值? 用python计算基本统计值的代码为def getNum(): #从控制台获取多个不确定数据的方法 nums = []; iNumStr = input(" ...

  5. python excel筛选统计_懂点EXCEL就行!教你利用Python做数据筛选(上)

    前言 Python的数据清洗功能有多厉害,相信不用我说大家都知道了,寥寥几行代码便可以把一份杂乱无章的表格给处理的干干净净.但是python也是不容易入门的,毕竟编程语言要理解和精通也是要花不少功夫的 ...

  6. python模型部署方法_终极开箱即用的自动化Python模型选择方法

    python模型部署方法 Choosing the best model is a key step after feature selection in any data science proje ...

  7. python科目真题_不止金融行业, 全民都在学Python

    在大家的印象里,想进入金融行业或者数据岗位,首先需要精通Excel. 然而野村证券副首席数字官马修·汉普森在上周五的伦敦Quant Conference上发表讲话: "现在走进交易大厅,用E ...

  8. 如何确定python对应电脑版本_查看Anaconda版本、Anaconda和python版本对应关系和快速下载...

    官网 查看Anaconda版本 (C:\ProgramData\Anaconda3) C:\Users\Administrator>conda -V conda 4.3.30 Anaconda和 ...

  9. python怎么输出浮点数_【数会小课堂】Python知识第二弹

    通过上次的学习我们已经对python有了一定程度的了解,今天,我们来进一步学习有关Python中的变量与简单数据类型的内容. 01 Python中的变量 变量一般是用于储存信息的字符.变量在大多数编程 ...

最新文章

  1. Go 学习笔记(79)— Go 标准库 net(获取本机IP地址)
  2. java面试 拦截器问题_面试必问:给我说一下Spring MVC拦截器的原理?
  3. 看京东系统架构师如何让笨重的架构变得灵巧
  4. python3 module 'pexpect' has no attribute 'spawn' 解决方法
  5. python编程入门经典实例-编程语言入门经典100例【Python版】
  6. wxWidgets:wxStdInputStream类用法
  7. TOMCAT websocket 多连接内存泄漏与jetty对比分析
  8. AI是计算机科学,人工智能计算机科学(79种)...
  9. 输入学生的个数,姓名,成绩,然后按照学生的成绩的降序来打印学生的姓名
  10. 关于Tortoise git汉化包装了,不管用,仍然是英文菜单的问题记录
  11. 一个自动动态播放图片的类(downmoon)新增图片效果
  12. pp助手苹果版本_苹果开放10.33降级通道,附降级教程及可降机型
  13. 通达信标记符号_通达信添加标记符号
  14. c语言系统垃圾清理软件,c语言中加入“一键清理系统垃圾”的代码怎么实现?...
  15. 云计算和web服务器应用,基于云计算的Web服务选择及应用研究
  16. 骑士旅行问题(骑士走棋盘)
  17. Git:SSL错误导致失败的解决办法
  18. PC上网页端屏蔽知乎上的视频
  19. sublime 正则跨行匹配
  20. SiteServer CMS 响应式模板中心上线啦

热门文章

  1. JAVA和H5的优势有哪些
  2. 轨道机动算法的C++实现
  3. 长短时记忆神经网络python代码_零基础入门深度学习(6) - 长短时记忆网络(LSTM)
  4. 怎么理解 Web 3.0?
  5. 本月,我最推荐的意外保险排行榜
  6. 苹果系统服务器状态在哪里,详细解读iPhone上的系统定位服务
  7. 各大厂商企业级BOM解决方案PK
  8. SR(稀疏表示)人脸识别
  9. ssm学生综合素质评价系统
  10. 输入售价后点击计算税费,自动显示在税费输入框!