jieba文本分词(入门)

针对爬虫得到的评论txt文件

  • 首先用with open打开已有文件,用read方法读出
with open("result.txt","r") as f:content=f.read()
  • 用jieba.cut()方法将得到的文本内容切割,默认情况是精准切割
seg_list=jieba.cut(content)

补充: jieba分词支持三种分词模式:
精确模式:试图将句子最精确地切开,适合文本分析:
全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎模式:在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。
例子:

seg_list = jieba.cut("你说四大皆空,却紧闭双眼,要是你睁开眼睛看看我,我不相信你两眼空空", cut_all=True)#全模式
print("全模式:", "/".join(seg_list))seg_list = jieba.cut("你说四大皆空,却紧闭双眼,要是你睁开眼睛看看我,我不相信你两眼空空", cut_all=False)#精确模式
print("精确模式:", "/".join(seg_list))seg_list = jieba.cut("你说四大皆空,却紧闭双眼,要是你睁开眼睛看看我,我不相信你两眼空空")  # 默认是精确模式
print("默认:","/".join(seg_list))seg_list = jieba.cut_for_search("你说四大皆空,却紧闭双眼,要是你睁开眼睛看看我,我不相信你两眼空空")  # 搜索引擎模式
print("搜索引擎模式:", "/".join(seg_list))

结果:

全模式: 你/说/四大/四大皆空/皆空/,/却/紧闭/双眼/,/要是/你/睁开/睁开眼/睁开眼睛/开眼/眼睛/看看/我/,/我/不/相信/你/两眼/空空
精确模式: 你/说/四大皆空/,/却/紧闭/双眼/,/要是/你/睁开眼睛/看看/我/,/我/不/相信/你/两眼/空空
默认: 你/说/四大皆空/,/却/紧闭/双眼/,/要是/你/睁开眼睛/看看/我/,/我/不/相信/你/两眼/空空
搜索引擎模式: 你/说/四大/皆空/四大皆空/,/却/紧闭/双眼/,/要是/你/睁开/开眼/眼睛/睁开眼/睁开眼睛/看看/我/,/我/不/相信/你/两眼/空空

可以看出精准分词不会有重复的词,搜索引擎模式是分的最细的

  • 用一个列表装停用字(一般要用文档)
    将分割得到的词语去除停用字

  • 然后用wordcloud库生成词云

# encoding=utf-8
import collections
import jieba
from jieba import analyse
from wordcloud import WordCloud
import pandaswith open("result.txt","r") as f:content=f.read()stopword=['的','是','评论','配图',',','.','。','!']
seg_list=jieba.cut(content)
seg_list=",".join(seg_list)
word_list=[]for seg in seg_list.split(","):if seg not in stopword:word_list.append(seg)with open("split_result.txt", "a", encoding="utf-8") as f:f.write(str(word_list))word_counts=collections.Counter(word_list)
word_counts_top=word_counts.most_common(100)
df=pandas.DataFrame(word_counts_top)
df.to_csv(r'most_common_words.csv',index=None,header=None)tags=jieba.analyse.extract_tags(content,topK=100,withWeight=True)
keywords=dict()
for i in tags:keywords[i[0]]=i[1]wc=WordCloud.generate(keywords=keywords)wc.to_file('wordcloud.png')

“21天好习惯”第一期-4相关推荐

  1. “21天好习惯“第一期--4

    "21天好习惯"-第四天 每天记录一点点 计算机的诞生与发展 冯·诺依曼体系 计算机系统作为一个能够自动地处理信息的智能化工具,必须解决好两个最基本的问题:①信息如何表示才能方便地 ...

  2. “21天好习惯” 第一期 - 18

    今天进一步探究昨天学习的strcmp()函数:         昨天学习strcmp()函数时提到了,当两个字符串相同时,输出0,不相同时,输出非零,那么当两个字符串不同时,具体会输出什么非零值呢?于 ...

  3. “21天好习惯”第一期——16

    <计算机组成原理> 第一章 概论 1.1.2 存储程序工作方式 存储程序是计算机的核心内容,表明了计算机的工作方式,包含3个要点:事先编写程序,存储程序,自动.连续地执行程序. (1)根据 ...

  4. “21天好习惯”第一期- 4 简单的壁纸爬虫

    有时候我们不想让电脑桌面过于单调,于是琢磨着能不能让电脑每天自动获取网站上的图片然后更换为壁纸,这就需要一个壁纸爬虫了,这里以3G壁纸为例. 首先,还是喜闻乐见的导入模块,在这个爬虫中,我们需要以下模 ...

  5. “21天好习惯”第一期——21

    <计算机组成原理> 3.5.2 MIPS32架构CPU基本的组成部件 3. 单周期控制系统设计 (2)ALU控制单元      ALU控制单元接收两种输入:主控单元输出的m位aluop和指 ...

  6. “21天好习惯“第一期——2

    道友们好,今天是学习的第二天,经过一天的学习我又了解到了很多有关C语言的知识,我也会和大家继续分享我的学习笔记,以及在学习中遇到的问题. 请大家看看下面这个程序: 今天的学习就到此为止,希望大家可以向 ...

  7. “21天好习惯”第一期——2

    今天学习的内容是3.3.2--算术逻辑单元. 继续昨天的学习的内容进一步学习了ALU: ALU的外部特性与功能: ALU的标志位: ALU的EDA设计模式: 学习中遇到的问题主要是ALU的EDA设计模 ...

  8. “21天好习惯”第一期-第10天

    今天学会了一个猜数的程序,这个程序可以让计算机随机生成一个100以内的数,然后我们人来猜这个数是什么. #include<stdio.h> #include<stdlib.h> ...

  9. “21天好习惯“ 第九期—9:京东倒计时,淘宝倒计时

    "21天好习惯" 第九期 - 9 一.学习规划 1.计算机组成图谱绘画(应为知识导图)(10月25) 2.网络工程师备考(11月6) 3.信息知识竞赛(10月31) 二.所遇问题 ...

  10. “21天养成好习惯”第一期——21

    1.今天是关于数组 概念在上图里面同时还有诸多注意事项 1.数组的下标均以0开始: 2.数组在初始化的时候,数组内元素的个数不能大于声明的数组长度: 3.如果采用第一种初始化方式,元素个数小于数组的长 ...

最新文章

  1. 一文看尽 27 篇 CVPR 2021 2D 目标检测论文
  2. python文件读写2
  3. 一篇文章教你弄懂SpringMvc中的HttpMessageConverter
  4. 从源码构建 MyBatis Generator(MBG)
  5. Ajax调用springboot接口,Springboot解决ajax+自定义headers的跨域请求问题.pdf
  6. php 获取扩展函数,获取php扩展函数
  7. cakephp index.php,CakePHP - 中文手册
  8. SQL笔记之开天辟地
  9. HTML5中的绘图SVG VS Canvas
  10. MAX30102脉搏血氧仪和心率传感器(一)驱动程序
  11. VS2015自定义编程背景
  12. 小学英语与计算机技术整合,信息技术与小学英语课程整合初探
  13. 苹果备份删除有影响吗_苹果官网崩了,对手机的销售有什么影响吗?
  14. 炫云全新支持优化渲染质量了
  15. 3D/VR/AR简易技术原理介绍
  16. win7系统笔记本架设无线热点(AP)
  17. php面试题之PHP核心技术(life)
  18. BO 4.3支持微软的Azure Synapse Analytics 吗?
  19. 《互联网保险业务监管办法》(征求意见稿)全文无删减
  20. 02-02-JS-jQuery-HTTP-Servlet

热门文章

  1. IDEA中Maven打包遇到的问题
  2. 盗版微擎倒卖获利40万,自学成才的假程序员被抓了!
  3. js 文件操作 fso new ActiveXObject( Scripting.FileSystemObject )
  4. js中new ActiveXObject(Scripting.FileSystemObject)等操作本地文件用法,
  5. 031 《山茶文具店》读后感
  6. C#编写一个扫雷游戏
  7. Linux驱动——sdio type card(八)
  8. Android智能聊天机器人的实现
  9. 力扣786. 第 K 个最小的素数分数(自定义排序方式)?
  10. JavaScript反混淆插件九:删除垃圾代码(花指令)