def build_dataset(words):count = [['UNK', -1]]#collections.Counter(words).most_commoncount.extend(collections.Counter(words).most_common(vocabulary_size - 1))  # words中每个分词计数,然后按照词频降序排列放在count里:[['UNK', -1], ('的', 99229), ('在', 25925), ('是', 20172), ('年', 17007), ('和', 16514), ('为', 15231), ('了', 13053), ('有', 11253), ('与', 11194)]dictionary = dict()for word, _ in count:dictionary[word] = len(dictionary)                                     # count中每个词分配一个编号,:[('UNK', 0), ('的', 1), ('在', 2), ('是', 3), ('年', 4), ('和', 5), ('为', 6), ('了', 7), ('有', 8), ('与', 9)]# 相当于词典,key是分词,value是分配的编号data = list()unk_count = 0data=[dictionary[word]  if  word in dictionary else 0 for word in words]   # 将words中的每个分词用序列号表示:[14880, 4491, 483, 70, 1, 1009, 1850, 317, 14, 76]count[0][1] = unk_countreverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))     # 将dictionary中的key和value对换:[(0, 'UNK'), (1, '的'), (2, '在'), (3, '是'), (4, '年'), (5, '和'), (6, '为'), (7, '了'), (8, '有'), (9, '与')]# 相当于key是编号,value是对应的词return data, count, dictionary, reverse_dictionary

python统计词频相关推荐

  1. Python统计词频的几种方法

    本文介绍python统计词频的几种方法,供大家参考 目录 方法一:运用集合去重方法 方法二:运用字典统计 方法三:使用计数器 方法一:运用集合去重方法 def word_count1(words,n) ...

  2. python统计词频_Python统计四六级考试的词频

    Python统计四六级考试的词频 此文首发于公众号 「Python知识圈」, 欢迎直接去公众号查看 阅读文本大概需要 4.6 分钟. 今天是教师节,先祝天下所有老师教师节快乐,感谢您在我学生时代对我的 ...

  3. python统计词频瓦尔登湖_1.5 python文件操作

    1.5.1 文件的具体操作 打开文件 f = open('test.txt', 'w') 在python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件: open(文件名,访问模式 ...

  4. python 统计词频

    本文尝试用python进行词频统计,待统计的文章如下: python3源代码如下: #引入turtle模块,用于绘制结果图 import turtle #全局变量 #词频排列显示个数,我们只显示出现次 ...

  5. python统计词频_python统计词频

    一.程序分析 (1)将文件读入缓冲区(dst指文本文件存放路径,设置成形参,也可以不设,具体到函数里设置) def process_file(dst): # 读文件到缓冲区try: # 打开文件 tx ...

  6. python统计词频_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  7. python统计词频 创建字典_如何利用Python进行文本词频统计

    问题描述 Python在自然语言处理这个方面,有其天然的优势:简单,快捷.所以我们经常会遇到利用Python从一篇文档中,统计文本词频的问题.以<三国演义>这部名著为例,文中哪些人物的出场 ...

  8. python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...

    (转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

  9. python单词词频字典_python利用多种方式来统计词频(单词个数)

    python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...

最新文章

  1. X window的思想和终端的重大意义
  2. Redis基础知识点总结
  3. 数据科学学习课件:实用数据挖掘与人工智能
  4. VTK:可视化之AxisActor
  5. Windows Hook
  6. 华为组织架调整,CloudAI升至第四大BG,打通全球第一款集成5G模组的4K直播编码器网络通信服务;谷歌宣布与IBM合作……...
  7. android 打印机列表中,在android中打印只搜索打印机
  8. 我的世界seus光影java版下载_我的世界seus光影mod
  9. DELL 灵越系列笔记本 1427 更换显示屏
  10. win10设置HTML桌面背景,win10系统分屏设置不同壁纸教程
  11. WTL for MFC Programmers, Part VI - Hosting ActiveX Controls
  12. 小板凳app android,小方桌易家园老师端app
  13. 小程序报错invalid code解决办法
  14. vue返回上一页面时记忆回到原先滚动的位置
  15. buffer busy waits
  16. SAP MM模块-MIGO收货后自动打印收货单
  17. 推荐一个快速获取时间的插件 Moment.js
  18. a different object with the same identifier value was already associated with the session错误
  19. 金九银十跳槽季,恶补分布式事务
  20. 这4件事,你知道吗?锤子回故乡,华为很随意,苹果傍大款

热门文章

  1. python矩阵运算程序_用于矩阵运算的Python程序
  2. 锂号称“稀有金属”,关于它你不知道的知识,带你了解化学元素
  3. 基于深度学习的垃圾分类以及生活垃圾产出量的可视化
  4. cad修改快捷键_CAD画图难吗?有什么诀窍吗?
  5. The Greatest Show on Earth
  6. 有哪些适合高强度运动的蓝牙耳机推荐,适合运动健身的运动耳机
  7. 网络编程之一文读懂什么是IPv6
  8. 汽车电脑是linux吗,如果Windows是汽车,那么Linux就是坦克
  9. 分布式数据库和分布式缓存
  10. 婴儿奶粉销量分析 数据分析实战