python统计词频
def build_dataset(words):count = [['UNK', -1]]#collections.Counter(words).most_commoncount.extend(collections.Counter(words).most_common(vocabulary_size - 1)) # words中每个分词计数,然后按照词频降序排列放在count里:[['UNK', -1], ('的', 99229), ('在', 25925), ('是', 20172), ('年', 17007), ('和', 16514), ('为', 15231), ('了', 13053), ('有', 11253), ('与', 11194)]dictionary = dict()for word, _ in count:dictionary[word] = len(dictionary) # count中每个词分配一个编号,:[('UNK', 0), ('的', 1), ('在', 2), ('是', 3), ('年', 4), ('和', 5), ('为', 6), ('了', 7), ('有', 8), ('与', 9)]# 相当于词典,key是分词,value是分配的编号data = list()unk_count = 0data=[dictionary[word] if word in dictionary else 0 for word in words] # 将words中的每个分词用序列号表示:[14880, 4491, 483, 70, 1, 1009, 1850, 317, 14, 76]count[0][1] = unk_countreverse_dictionary = dict(zip(dictionary.values(), dictionary.keys())) # 将dictionary中的key和value对换:[(0, 'UNK'), (1, '的'), (2, '在'), (3, '是'), (4, '年'), (5, '和'), (6, '为'), (7, '了'), (8, '有'), (9, '与')]# 相当于key是编号,value是对应的词return data, count, dictionary, reverse_dictionary
python统计词频相关推荐
- Python统计词频的几种方法
本文介绍python统计词频的几种方法,供大家参考 目录 方法一:运用集合去重方法 方法二:运用字典统计 方法三:使用计数器 方法一:运用集合去重方法 def word_count1(words,n) ...
- python统计词频_Python统计四六级考试的词频
Python统计四六级考试的词频 此文首发于公众号 「Python知识圈」, 欢迎直接去公众号查看 阅读文本大概需要 4.6 分钟. 今天是教师节,先祝天下所有老师教师节快乐,感谢您在我学生时代对我的 ...
- python统计词频瓦尔登湖_1.5 python文件操作
1.5.1 文件的具体操作 打开文件 f = open('test.txt', 'w') 在python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件: open(文件名,访问模式 ...
- python 统计词频
本文尝试用python进行词频统计,待统计的文章如下: python3源代码如下: #引入turtle模块,用于绘制结果图 import turtle #全局变量 #词频排列显示个数,我们只显示出现次 ...
- python统计词频_python统计词频
一.程序分析 (1)将文件读入缓冲区(dst指文本文件存放路径,设置成形参,也可以不设,具体到函数里设置) def process_file(dst): # 读文件到缓冲区try: # 打开文件 tx ...
- python统计词频_Python中文分词及词频统计
中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...
- python统计词频 创建字典_如何利用Python进行文本词频统计
问题描述 Python在自然语言处理这个方面,有其天然的优势:简单,快捷.所以我们经常会遇到利用Python从一篇文档中,统计文本词频的问题.以<三国演义>这部名著为例,文中哪些人物的出场 ...
- python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
- python单词词频字典_python利用多种方式来统计词频(单词个数)
python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...
最新文章
- X window的思想和终端的重大意义
- Redis基础知识点总结
- 数据科学学习课件:实用数据挖掘与人工智能
- VTK:可视化之AxisActor
- Windows Hook
- 华为组织架调整,CloudAI升至第四大BG,打通全球第一款集成5G模组的4K直播编码器网络通信服务;谷歌宣布与IBM合作……...
- android 打印机列表中,在android中打印只搜索打印机
- 我的世界seus光影java版下载_我的世界seus光影mod
- DELL 灵越系列笔记本 1427 更换显示屏
- win10设置HTML桌面背景,win10系统分屏设置不同壁纸教程
- WTL for MFC Programmers, Part VI - Hosting ActiveX Controls
- 小板凳app android,小方桌易家园老师端app
- 小程序报错invalid code解决办法
- vue返回上一页面时记忆回到原先滚动的位置
- buffer busy waits
- SAP MM模块-MIGO收货后自动打印收货单
- 推荐一个快速获取时间的插件 Moment.js
- a different object with the same identifier value was already associated with the session错误
- 金九银十跳槽季,恶补分布式事务
- 这4件事,你知道吗?锤子回故乡,华为很随意,苹果傍大款