python统计词频

def build_dataset(words):count = [['UNK', -1]]#collections.Counter(words).most_commoncount.extend(collections.Counter(words).most_common(vocabulary_size - 1))  # words中每个分词计数，然后按照词频降序排列放在count里：[['UNK', -1], ('的', 99229), ('在', 25925), ('是', 20172), ('年', 17007), ('和', 16514), ('为', 15231), ('了', 13053), ('有', 11253), ('与', 11194)]dictionary = dict()for word, _ in count:dictionary[word] = len(dictionary)                                     # count中每个词分配一个编号，：[('UNK', 0), ('的', 1), ('在', 2), ('是', 3), ('年', 4), ('和', 5), ('为', 6), ('了', 7), ('有', 8), ('与', 9)]# 相当于词典，key是分词，value是分配的编号data = list()unk_count = 0data=[dictionary[word]  if  word in dictionary else 0 for word in words]   # 将words中的每个分词用序列号表示:[14880, 4491, 483, 70, 1, 1009, 1850, 317, 14, 76]count[0][1] = unk_countreverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))     # 将dictionary中的key和value对换:[(0, 'UNK'), (1, '的'), (2, '在'), (3, '是'), (4, '年'), (5, '和'), (6, '为'), (7, '了'), (8, '有'), (9, '与')]# 相当于key是编号，value是对应的词return data, count, dictionary, reverse_dictionary

python统计词频相关推荐

Python统计词频的几种方法
本文介绍python统计词频的几种方法,供大家参考目录方法一:运用集合去重方法方法二:运用字典统计方法三:使用计数器方法一:运用集合去重方法 def word_count1(words,n) ...
python统计词频_Python统计四六级考试的词频
Python统计四六级考试的词频此文首发于公众号「Python知识圈」, 欢迎直接去公众号查看阅读文本大概需要 4.6 分钟. 今天是教师节,先祝天下所有老师教师节快乐,感谢您在我学生时代对我的 ...
python统计词频瓦尔登湖_1.5 python文件操作
1.5.1 文件的具体操作打开文件 f = open('test.txt', 'w') 在python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件: open(文件名,访问模式 ...
python 统计词频
本文尝试用python进行词频统计,待统计的文章如下: python3源代码如下: #引入turtle模块,用于绘制结果图 import turtle #全局变量 #词频排列显示个数,我们只显示出现次 ...
python统计词频_python统计词频
一.程序分析 (1)将文件读入缓冲区(dst指文本文件存放路径,设置成形参,也可以不设,具体到函数里设置) def process_file(dst): # 读文件到缓冲区try: # 打开文件 tx ...
python统计词频_Python中文分词及词频统计
中文分词中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...
python统计词频创建字典_如何利用Python进行文本词频统计
问题描述 Python在自然语言处理这个方面,有其天然的优势:简单,快捷.所以我们经常会遇到利用Python从一篇文档中,统计文本词频的问题.以<三国演义>这部名著为例,文中哪些人物的出场 ...
python统计词频瓦尔登湖_自然语言处理之中文分词器－jieba分词器详解及python实战...
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
python单词词频字典_python利用多种方式来统计词频（单词个数）
python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...

python统计词频

python统计词频相关推荐

最新文章

热门文章