python结巴分词词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...

匿名用户

1级

2016-11-03 回答

#!/usr/bin/env python3

#-*- coding:utf-8 -*-

import os,random

#假设要读取文件名为aa，位于当前路径

filename='aa.txt'

dirname=os.getcwd()

f_n=os.path.join(dirname,filename)

#注释掉的程序段，用于测试脚本，它生成20行数据，每行有1-20随机个数字，每个数字随机1-20

'''

test=''

for i in range(20):

for j in range(random.randint(1,20)):

test+=str(random.randint(1,20))+' '

test+='\n'

with open(f_n,'w') as wf:

wf.write(test)

'''

with open(f_n) as f:

s=f.readlines()

#将每一行数据去掉首尾的空格和换行符，然后用空格分割，再组成一维列表

words=[]

for line in s:

words.extend(line.strip().split(' '))

#格式化要输出的每行数据，首尾各占8位，中间占18位

def geshi(a,b,c):

return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+'\n'

#中英文混合对齐，参考http://bbs.fishc.com/thread-67465-1-1.html ，二楼

#汉字与字母格式化占位 format对齐出错对不齐汉字对齐数字汉字对齐字母中文对齐英文

#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐

def alignment(str1, space=8, align = 'left'):

length = len(str1.encode('gb2312'))

space = space - length if space >=length else 0

if align in ['left','l','L','Left','LEFT']:

str1 = str1 + ' ' * space

elif align in ['right','r','R','Right','RIGHT']:

str1 = ' '* space +str1

elif align in ['center','c','C','Center','CENTER','centre']:

str1 = ' ' * (space //2) +str1 + ' '* (space - space // 2)

return str1

w_s=geshi('序号','词','频率')

#由(词,频率)元组构成列表，先按频率降序排序，再按词升序排序，多级排序，一组升，一组降，高级sorted

wordcount=sorted([(w,words.count(w)) for w in set(words)],key=lambda l:(-l[1],l[0]))

#要输出的数据，每一行由：序号(占8位)词(占20位)频率(占8位)+'\n'构成，序号=List.index(element)+1

for (w,c) in wordcount:

w_s+=geshi(wordcount.index((w,c))+1,w,c)

#将统计结果写入文件ar.txt中

writefile='ar.txt'

w_n=os.path.join(dirname,writefile)

with open(w_n,'w') as wf:

wf.write(w_s)

python结巴分词词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...相关推荐

python中难的算法_一个python的比较难的算法,有懂的人可以进来一下
问题我的需求: 结构数据是这样的: 要求按照这样的公式: 组合一: 时间词+地方词+动词+等级+名词+价格词: 比如 2016年深圳大鹏新区给健康全身检查要多少钱就是按照这样的公式组合出来的关键 ...
python中 t表示什么_在txt文件中\t表示什么？
我用pandas打开一个txt文件,文件中应该有一个分栏符的地方是\t.在我在文件里读的是这样的:df=pd.read_csv(r'file.txt') 数据帧如下所示: ^{pr2}$ 我希望它看 ...
python的界面文字翻译_一个把网站全英文转成中文的方法，让你轻松看懂python官网...
近日,在看python官网(英文网站)时,使用了有道翻译工具查看了几个专有名词.无意间,有了是不是可以输入网站地址进行翻译的想法,翻译后的网站地址点击进去后,又是一个什么情况呢?小编发现,经过有道翻译 ...
python菜单翻译成中文_一个把网站全英文转成中文的方法，让你轻松看懂python官网...
近日,在看python官网(英文网站)时,使用了有道翻译工具查看了几个专有名词.无意间,有了是不是可以输入网站地址进行翻译的想法,翻译后的网站地址点击进去后,又是一个什么情况呢?小编发现,经过有道翻译 ...
python爬取京东书籍_一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
python爬虫接单经历_一个Python小白5个小时爬虫经历
环境搭建既然用python,那么自然少不了语言环境.于是乎到官网下载了3.5版本的.安装完之后,随机选择了一个编辑器叫PyCharm,话说python编辑器还真挺多的.由于本人是小白,所以安装事项不 ...
python爬b站评论_一个简单的爬取b站up下所有视频的所有评论信息的爬虫
心血来潮搞了一个简单的爬虫,主要是想知道某个人的b站账号,但是你知道,b站在搜索一个用户时,如果这个用户没有投过稿,是搜不到的,,,这时就只能想方法搞到对方的mid,,就是 space.bilibil ...
python数据建模案例源代码_一个完整的数据分析案例 | 用Python建立客户流失预测模型（含源数据+代码）...
原标题:一个完整的数据分析案例 | 用Python建立客户流失预测模型(含源数据+代码) 来源:数据分析不是个事儿作者:启方原文: https://mp.weixin.qq.com/s/_20MN ...
python 文件中搜索字符串_在txt文件中搜索字符串Python
为什么你总是得到True的原因已经给出,所以我只提出另一个建议: 如果你的文件不是太大,你可以读它到一个字符串,只是使用(更容易,通常比每行阅读和检查行更快): if 'blabla' in open ...

python结巴分词词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...

python结巴分词词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...相关推荐

最新文章

热门文章

python结巴分词 词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...

python结巴分词 词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...相关推荐

最新文章

热门文章

python结巴分词词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...

python结巴分词词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...相关推荐