python实现中文分词和词频统计
python2.7中实现中文分词,是引入了jieba中文分词库。再进行简单的词频统计。
import sys
reload(sys) sys.setdefaultencoding('utf-8') import jieba
import jieba.analyse
import xlwt #写入Excel表的库 if __name__=="__main__": wbk = xlwt.Workbook(encoding = 'ascii') sheet = wbk.add_sheet("wordCount")#Excel单元格名字 word_lst = [] key_list=[] for line in open('test.txt'):#test.txt是需要分词统计的文档 item = line.strip('\n\r').split('\t') #制表格切分 # print item tags = jieba.analyse.extract_tags(item[0]) #jieba分词 for t in tags: word_lst.append(t) word_dict= {} with open("wordCount.txt",'w') as wf2: #打开文件 for item in word_lst: if item not in word_dict: #统计数量 word_dict[item] = 1 else: word_dict[item] += 1 orderList=list(word_dict.values()) orderList.sort(reverse=True) # print orderList for i in range(len(orderList)): for key in word_dict: if word_dict[key]==orderList[i]: wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 key_list.append(key) word_dict[key]=0 for i in range(len(key_list)): sheet.write(i, 1, label = orderList[i]) sheet.write(i, 0, label = key_list[i]) wbk.save('wordCount.xls') #保存为 wordCount.xls文件
得到分词结果:
python实现中文分词和词频统计相关推荐
- Python中文分词及词频统计
Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...
- python统计词频_Python中文分词及词频统计
中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...
- python 小说词频统计_Python中文分词及词频统计
中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...
- python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制
本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...
- python分词和词频统计
Python大数据:jieba分词,词频统计 黑冰中国 关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学 ...
- python字频统计软件_python结巴分词以及词频统计实例
python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...
- python软件和rost软件哪个更好_ROST-CM软件分词和词频统计用法体验
ROST作为一款优秀的内容挖掘工具,在自然语言处理上提供一系列能够快速上手使用的功能,其中"分词"功能也是广为使用的.我们在对文本进行分词处理的过程中,由于词库是固定的,所以不管是 ...
- 使用Python做中文分词和绘制词云
使用Python做中文分词和绘制词云 李小璐出轨云词图 作为一门编程语言,Python的编写简单,支持库强大,应用场景多,越来越多的人开始将它作为自己的编程入门语言. Python一个比较重要的场景是 ...
- Python实现中文分词--正向最大匹配和逆向最大匹配
编译原理实验二:Python实现中文分词–正向最大匹配和逆向最大匹配 最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数 ...
最新文章
- linux内核用什么调试,什么是开发/调试Linux内核最有效和最优雅的方式
- :x 和 :wq 的区别
- java 工厂模式 计算器_java设计模式之简单工厂模式
- 使用vscode连接阿里云服务器报错: ssh: Could not resolve hostname Name or service not known
- Android 系统(222)---Android 的lowmemorykiller机制
- mysql主从复制同步实验_db.mysql.主从同步实验
- IP头,TCP头,UDP头,MAC帧头定义(转)
- c#自带压缩类实现数据库表导出到CSV压缩文件的方法
- 全栈性能测试修炼宝典jmeter实战电子版_JMeter实战(一) 体系结构
- SQL:postgresql中生成当前时间以及当前时间戳
- jquery 遍历 each 每个匹配元素规定要运行的函数
- alphacam图库@橱柜门专用alphacam图
- 苹果屏幕镜像_给你们科普一下手机投屏和镜像的区别
- 2022年G2电站锅炉司炉报名考试及G2电站锅炉司炉考试技巧
- 2019年我能变强组队训练赛第十场 C Criss-Cross Cables(优先队列模拟)
- Django项目实战——10—(修改地址前后端逻辑、删除地址前后端逻辑、设置默认地址、修改密码、虚拟机安装docker/FastDFS、电商-商品知识、首页广告数据库表分析、商品信息数据库表分析)
- 不同时区时间换算_Java中如何显示不同时区的时间(原理详解)
- SQL Server解决18456错误方案
- 11张图告诉你什么是PMP项目管理,程序员必看
- JavaScript 制作12小时进制的时钟特效
热门文章
- 测试两个主机之间的连通性_EEG源连通性:旨在实现大脑网络在时间和空间上的高分辨率...
- CI持续集成之cruiserControl用户安全处理
- 系统分析与设计——状态图画法
- 北京大学郭炜-最长上升子序列 动态规划讲解
- 计算机模拟双缝干涉实验报告,杨氏双缝干涉实验报告.doc.pdf
- 静态HTML网页设计作品 我的家乡-云南(9页) HTML+CSS+JavaScript 关于我的家乡的HTML网页设计-----云南
- (浙大-19-夏-数据结构)Prim(普里姆算法)和Kruskal(克鲁斯卡尔算法)最小生成树
- laravel Excel3.0的使用
- div(table)自动换行word-break:break-all和word-wrap:break-word的区别
- EXCEL表格中怎样将文字完全显示