python2.7中实现中文分词,是引入了jieba中文分词库。再进行简单的词频统计。

import sys
reload(sys)  sys.setdefaultencoding('utf-8')  import jieba
import jieba.analyse
import xlwt #写入Excel表的库  if __name__=="__main__":  wbk = xlwt.Workbook(encoding = 'ascii')  sheet = wbk.add_sheet("wordCount")#Excel单元格名字  word_lst = []  key_list=[]  for line in open('test.txt'):#test.txt是需要分词统计的文档  item = line.strip('\n\r').split('\t') #制表格切分  # print item  tags = jieba.analyse.extract_tags(item[0]) #jieba分词  for t in tags:  word_lst.append(t)  word_dict= {}  with open("wordCount.txt",'w') as wf2: #打开文件  for item in word_lst:  if item not in word_dict: #统计数量  word_dict[item] = 1  else:  word_dict[item] += 1  orderList=list(word_dict.values())  orderList.sort(reverse=True)  # print orderList  for i in range(len(orderList)):  for key in word_dict:  if word_dict[key]==orderList[i]:  wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档  key_list.append(key)  word_dict[key]=0  for i in range(len(key_list)):  sheet.write(i, 1, label = orderList[i])  sheet.write(i, 0, label = key_list[i])  wbk.save('wordCount.xls') #保存为 wordCount.xls文件 

得到分词结果:

python实现中文分词和词频统计相关推荐

  1. Python中文分词及词频统计

    Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...

  2. python统计词频_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  3. python 小说词频统计_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  4. python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

    本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...

  5. python分词和词频统计

    Python大数据:jieba分词,词频统计  黑冰中国 关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学 ...

  6. python字频统计软件_python结巴分词以及词频统计实例

    python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...

  7. python软件和rost软件哪个更好_ROST-CM软件分词和词频统计用法体验

    ROST作为一款优秀的内容挖掘工具,在自然语言处理上提供一系列能够快速上手使用的功能,其中"分词"功能也是广为使用的.我们在对文本进行分词处理的过程中,由于词库是固定的,所以不管是 ...

  8. 使用Python做中文分词和绘制词云

    使用Python做中文分词和绘制词云 李小璐出轨云词图 作为一门编程语言,Python的编写简单,支持库强大,应用场景多,越来越多的人开始将它作为自己的编程入门语言. Python一个比较重要的场景是 ...

  9. Python实现中文分词--正向最大匹配和逆向最大匹配

    编译原理实验二:Python实现中文分词–正向最大匹配和逆向最大匹配 最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数 ...

最新文章

  1. linux内核用什么调试,什么是开发/调试Linux内核最有效和最优雅的方式
  2. :x 和 :wq 的区别
  3. java 工厂模式 计算器_java设计模式之简单工厂模式
  4. 使用vscode连接阿里云服务器报错: ssh: Could not resolve hostname Name or service not known
  5. Android 系统(222)---Android 的lowmemorykiller机制
  6. mysql主从复制同步实验_db.mysql.主从同步实验
  7. IP头,TCP头,UDP头,MAC帧头定义(转)
  8. c#自带压缩类实现数据库表导出到CSV压缩文件的方法
  9. 全栈性能测试修炼宝典jmeter实战电子版_JMeter实战(一) 体系结构
  10. SQL:postgresql中生成当前时间以及当前时间戳
  11. jquery 遍历 each 每个匹配元素规定要运行的函数
  12. alphacam图库@橱柜门专用alphacam图
  13. 苹果屏幕镜像_给你们科普一下手机投屏和镜像的区别
  14. 2022年G2电站锅炉司炉报名考试及G2电站锅炉司炉考试技巧
  15. 2019年我能变强组队训练赛第十场 C Criss-Cross Cables(优先队列模拟)
  16. Django项目实战——10—(修改地址前后端逻辑、删除地址前后端逻辑、设置默认地址、修改密码、虚拟机安装docker/FastDFS、电商-商品知识、首页广告数据库表分析、商品信息数据库表分析)
  17. 不同时区时间换算_Java中如何显示不同时区的时间(原理详解)
  18. SQL Server解决18456错误方案
  19. 11张图告诉你什么是PMP项目管理,程序员必看
  20. JavaScript 制作12小时进制的时钟特效

热门文章

  1. 测试两个主机之间的连通性_EEG源连通性:旨在实现大脑网络在时间和空间上的高分辨率...
  2. CI持续集成之cruiserControl用户安全处理
  3. 系统分析与设计——状态图画法
  4. 北京大学郭炜-最长上升子序列 动态规划讲解
  5. 计算机模拟双缝干涉实验报告,杨氏双缝干涉实验报告.doc.pdf
  6. 静态HTML网页设计作品 我的家乡-云南(9页) HTML+CSS+JavaScript 关于我的家乡的HTML网页设计-----云南
  7. (浙大-19-夏-数据结构)Prim(普里姆算法)和Kruskal(克鲁斯卡尔算法)最小生成树
  8. laravel Excel3.0的使用
  9. div(table)自动换行word-break:break-all和word-wrap:break-word的区别
  10. EXCEL表格中怎样将文字完全显示