模块介绍

安装:pip install jieba 即可

jieba库,主要用于中文文本内容的分词,它有3种分词方法:

1. 精确模式, 试图将句子最精确地切开,适合文本分析:

2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。

我们用个小例子演示下

这上面的小例子中我们看到了一个问题,如果我们只是简简单单的将所有词切分出来,然后去统计它们出现的次数,那么你会发现,其中的“是”,“的”等等词语以及各种标点符号是出现频率最高的,那么这里有2种方式,1是直接去掉长度为1的所有词语,比如上面所说的“是”,“的”或者标点符号等等,还有一种呢,是用到了TF-IDF技术TF-IDF (term frequency-inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术,比较容易理解的一个应用场景是当我们手头有一些文章时或者微博评论,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能偶用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。这个方法又称为"词频-逆文本频率"。

不好理解的话,我们一样来写一个小例子:

withWeight=True 参数为是否返回权重值,默认是关闭的,我们直接打印出所有词和它对于的权重,就可以用于计算了!

小说词频分析

简单的写个小demo,分析小说的词频,并将前10个打印出来!篇幅有限,就以《天龙八部》的第1章为例,大概有4万多个字符,直接上代码了!

在第425行,进行分词,然后将结果进行遍历(426-433行),遍历中,剔除单个字符,每个词语和它所出现的次数写入字典,第434、435行将字典转化为元组所组成的列表,并依据出现次数进行排序,然后遍历列表,取出前10名。

第二段代码(441-445行)是依据权重取出了关键词,可以看出,这章小说,主要讲的就是段誉的事情了,不论是权重还是词频都是他最高。。。

文本内容有大概400多行,就折叠了,大家可以直接套用代码,自己试试。

后记

今天的分享就这些了,python的自然语言处理其实还有好多内容,比如停止词的使用,词性等等好多,大家如果有兴趣,可以来找我一起深入学习!

python jieba词频统计英文文本_python实战,中文自然语言处理,应用jieba库来统计文本词频...相关推荐

  1. python爬取小说项目概述_Python实战项目网络爬虫 之 爬取小说吧小说正文

    本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...

  2. python合并word表格单元格_Python实战009:读取Word文档中的表格数据及表格合并问题解决...

    同事最近被安排整理资料,主要工作室将文档中的表格数据提取出来并整理层Excel表格供我们FII刀具商城进行资料维护.由于刀具的种类繁多且规格无数,所以要处理的数据量相当的庞大.人工核对整理既费时又费力 ...

  3. python标准输入如何一行一行读_Python 3提供了( )函数从标准输入(如键盘)读入一行文本。_学小易找答案...

    [单选题]下列各项中,两个音节都属于零声母的是( ). (5.0分) [单选题]下列方法中,能够让所有单词的首字母变成大写的方法是( ). [判断题]"才华"和"菜花&q ...

  4. python客户端开发自行车租赁系统_Python实战—自行车租赁数据分析

    本节选取自行车的租赁数据,利用numpy.pandas.matplotlib三个库,数据清洗后,做数据分析,研究时间段与自行车租赁的关系. 数据来源 本节以自行车的租赁数据为例,数据来源于网络,利用时 ...

  5. python手机远程控制电脑访问网页_Python 实战系列-微信或网页远程控制电脑

    Python 实战系列-微信或网页远程控制电脑 本系列课程为Python实战系列课程:使用微信控制电脑,使用Python的Web框架Flask搭建网页, 并使用网页控制电脑:使用wxPython编写图 ...

  6. python 银行业务系统程序编程写_python实战案例--银行系统

    stay hungry, stay foolish.求知若饥,虚心若愚. 今天和大家分享一个python的实战案例,很多人在学习过程中都希望通过一些案例来试一下,也给自己一点动力.那么下面介绍一下这次 ...

  7. python查数据维度分析行业_Python数据分析之路(一)查询和统计

    0. 如何入门数据分析 关注沙漠之鹰的同学一定看过沙漠君写得很多篇数据分析文章,比如分析房价,车价,预测机动车摇号这些话题.其实文章中所有的分析都使用了Python和它非常强大的数据分析库Pandas ...

  8. python输出不重复的单词_Python情感分析(比较单词时,不计算文本中重复的单词)...

    您可以使用嵌套的for loop来实现这一点,但是这并不是解决简单问题的好方法:for posWord in posWords: for test in readFile: if i == test: ...

  9. python要学什么英文歌_Python分析网易云音乐近5年热门歌单

    由于同一歌单可能会有不同的分类,所以按这72种分类抓取的数据会有重复数据,剔重之后6.6万个热门歌单. 我按不同分类下歌单的相似度做了排行榜如下(红色部分表示相似度): 从相似度排行榜中看出流行音乐. ...

最新文章

  1. FastAI 2019课程学习笔记 lesson 2:自行获取数据并创建分类器
  2. Carplay Hub技术
  3. GDCM:gdcm::FileSet的测试程序
  4. html下拉框选择后自动刷新,html select 下拉框刷新页面后保留上一次选择的值
  5. SVG可伸缩的矢量图形
  6. SAP License:ERP的价格管控
  7. 罗永浩重新定义直播带货
  8. 二叉树遍历算法之三:后序遍历
  9. Eclipse中经常出现的问题解决方案
  10. kafka权威指南读书心得
  11. 案例 | 上海移动:数字化通向互联网的三个路标
  12. emulator教程 lbochs pc_bochs模拟器怎么用?bochs模拟器安装使用教程
  13. css div居中对齐
  14. win 10 下cmd命令无法使用ssh命令
  15. 心理声学模型在感知音频编码中的应用
  16. 第1107期AI100_机器学习日报(2017-09-29)
  17. Vue+Echarts实现饼图统计通过率
  18. Node.js 网站内容抓取及Mysql存取Demo
  19. 网页计算器 html代码原理,HTML网页之计算器代码
  20. iceman写的关于Debug API的文章,特别是关于CONTEXT结构的描述,有空再翻译(转贴)

热门文章

  1. MVVM模式的一个小例子
  2. 类型,对象,线程栈和托管堆在运行时的相互关系(一)。
  3. 计算机网络——速率相关的性能指标
  4. Java 的发展(历史)轨迹和历史变迁
  5. pip 不是内部或外部命令 也不是可运行的程序_QT之程序打包发布
  6. python安装oracle驱动_Python安装Oracle数据库驱动
  7. android动态居中布局,Android动态添加布局的两种方式
  8. 小程序 pagescrollto_微信小程序学习笔记(三)-- 首页及详情页开发
  9. matplotlib画图设置线条透明度
  10. latex在论文中添加行号