python结巴分词 词频统计_一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非...
匿名用户
1级
2016-11-03 回答
#!/usr/bin/env python3
#-*- coding:utf-8 -*-
import os,random
#假设要读取文件名为aa,位于当前路径
filename='aa.txt'
dirname=os.getcwd()
f_n=os.path.join(dirname,filename)
#注释掉的程序段,用于测试脚本,它生成20行数据,每行有1-20随机个数字,每个数字随机1-20
'''
test=''
for i in range(20):
for j in range(random.randint(1,20)):
test+=str(random.randint(1,20))+' '
test+='\n'
with open(f_n,'w') as wf:
wf.write(test)
'''
with open(f_n) as f:
s=f.readlines()
#将每一行数据去掉首尾的空格和换行符,然后用空格分割,再组成一维列表
words=[]
for line in s:
words.extend(line.strip().split(' '))
#格式化要输出的每行数据,首尾各占8位,中间占18位
def geshi(a,b,c):
return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+'\n'
#中英文混合对齐 ,参考http://bbs.fishc.com/thread-67465-1-1.html ,二楼
#汉字与字母 格式化占位 format对齐出错 对不齐 汉字对齐数字 汉字对齐字母 中文对齐英文
#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐
def alignment(str1, space=8, align = 'left'):
length = len(str1.encode('gb2312'))
space = space - length if space >=length else 0
if align in ['left','l','L','Left','LEFT']:
str1 = str1 + ' ' * space
elif align in ['right','r','R','Right','RIGHT']:
str1 = ' '* space +str1
elif align in ['center','c','C','Center','CENTER','centre']:
str1 = ' ' * (space //2) +str1 + ' '* (space - space // 2)
return str1
w_s=geshi('序号','词','频率')
#由(词,频率)元组构成列表,先按频率降序排序,再按词升序排序,多级排序,一组升,一组降,高级sorted
wordcount=sorted([(w,words.count(w)) for w in set(words)],key=lambda l:(-l[1],l[0]))
#要输出的数据,每一行由:序号(占8位)词(占20位)频率(占8位)+'\n'构成,序号=List.index(element)+1
for (w,c) in wordcount:
w_s+=geshi(wordcount.index((w,c))+1,w,c)
#将统计结果写入文件ar.txt中
writefile='ar.txt'
w_n=os.path.join(dirname,writefile)
with open(w_n,'w') as wf:
wf.write(w_s)
python结巴分词 词频统计_一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非...相关推荐
- python中难的算法_一个python的比较难的算法,有懂的人可以进来一下
问 题 我的需求: 结构数据是这样的: 要求按照这样的公式: 组合一: 时间词+地方词+动词+等级+名词+价格词: 比如 2016年深圳大鹏新区给健康全身检查要多少钱 就是按照这样的公式组合出来的关键 ...
- python中 t表示什么_在txt文件中\t表示什么?
我用pandas打开一个txt文件,文件中应该有一个分栏符的地方是\t.在 我在文件里读的是这样的:df=pd.read_csv(r'file.txt') 数据帧如下所示: ^{pr2}$ 我希望它看 ...
- python的界面文字翻译_一个把网站全英文转成中文的方法,让你轻松看懂python官网...
近日,在看python官网(英文网站)时,使用了有道翻译工具查看了几个专有名词.无意间,有了是不是可以输入网站地址进行翻译的想法,翻译后的网站地址点击进去后,又是一个什么情况呢?小编发现,经过有道翻译 ...
- python菜单翻译成中文_一个把网站全英文转成中文的方法,让你轻松看懂python官网...
近日,在看python官网(英文网站)时,使用了有道翻译工具查看了几个专有名词.无意间,有了是不是可以输入网站地址进行翻译的想法,翻译后的网站地址点击进去后,又是一个什么情况呢?小编发现,经过有道翻译 ...
- python爬取京东书籍_一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
- python爬虫接单经历_一个Python小白5个小时爬虫经历
环境搭建 既然用python,那么自然少不了语言环境.于是乎到官网下载了3.5版本的.安装完之后,随机选择了一个编辑器叫PyCharm,话说python编辑器还真挺多的.由于本人是小白,所以安装事项不 ...
- python爬b站评论_一个简单的爬取b站up下所有视频的所有评论信息的爬虫
心血来潮搞了一个简单的爬虫,主要是想知道某个人的b站账号,但是你知道,b站在搜索一个用户时,如果这个用户没有投过稿,是搜不到的,,,这时就只能想方法搞到对方的mid,,就是 space.bilibil ...
- python数据建模案例源代码_一个完整的数据分析案例 | 用Python建立客户流失预测模型(含源数据+代码)...
原标题:一个完整的数据分析案例 | 用Python建立客户流失预测模型(含源数据+代码) 来源:数据分析不是个事儿 作者:启方 原文: https://mp.weixin.qq.com/s/_20MN ...
- python 文件中搜索字符串_在txt文件中搜索字符串Python
为什么你总是得到True的原因已经给出,所以我只提出另一个建议: 如果你的文件不是太大,你可以读它到一个字符串,只是使用(更容易,通常比每行阅读和检查行更快): if 'blabla' in open ...
最新文章
- 微信小程序实时获取用户经纬度
- Python数据类型和分支循环
- c程序隐藏linux,linux 下隐藏进程的一种方法
- String,char,数组,列表 相互转化 (更新中)
- [Redis6]常用数据类型_String字符串
- 第九十五题(推断一字符串是不是对称的)
- java 线程内存模型_JAVA内存模型与线程
- python 魔法方法
- 数据结构与算法(Python)第一天
- cmd下运行Oracle清屏命令
- 安装QTP10.0 报需要先安装 c++组件
- E-prime主要常见问题及matlab、python打marker方式
- AI将png图片转换为矢量图并上传到阿里云iconfont
- linux下Js加载so,JavaScript文件加载器LABjs API详解
- CentOS7用YUM方式安装MySQL5.7
- 正则表达式常用语法解析
- 同济大学计算机系拿奖学分绩点,萌新必看NO.8|关于学分绩点奖学金,你想知道的都在这里...
- 笔试 | 大疆2021秋招笔试题及题解
- 开源框架 crux的生成
- branch什么意思中文翻译_这么污的鸡尾酒名字,到底是什么鬼