NLP 之 jieba (结巴)制作词云

一 、jieba的导入

%pip install jieba

二、 jieba 结巴分词的几种模式及使用

  1. 精确模式

    • 精确划分,视图将句子最精确地切分,适合文本分析
    jieba.lcut(text,cul_all=False)
    
  2. 全局模式

    • 全模式 把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义

      jieba.lcut(text,cul_all=True)
      
  3. 搜索引擎模式

    • 搜索引擎模式,是在精确划分的基础上,再进行全模式划分,,提高召唤率,适合用于搜索引擎分词。

    • jieba.lcut_for_search(text)
      
  4. 展示三种模式

    text2 = '落霞与孤鹜齐飞,秋水共长天一色'print('精确搜索','/'.join(jieba.lcut(text2,cut_all=False)))
    print('全模式','/'.join(jieba.lcut(text2,cut_all=True)))
    print('搜索引擎模式','/'.join(jieba.lcut_for_search(text2)))"""
    精确搜索     落霞与孤鹜齐飞/,/秋水共长天一色
    全模式       落霞/落霞与孤鹜齐飞/,/秋水/秋水共长天一色/长天/天一/一色
    搜索引擎模式  落霞/落霞与孤鹜齐飞/,/秋水/长天/天一/一色/秋水共长天一色
    """
    

如果有一些网络热词,能够被识别出来,不要被切分开,就要进行自定义一个词典,这个词典本身是txt文档,然后先试用jieba.load_userdict(‘文档地址’),再根据需求,使用jieba中任意一个模式进行切分。

text3 = '我是来自妈妈省的蓝色妖姬唱着只因你太美而来'
jieba.load_userdict('dict.txt')print('精确模式','/'.join(jieba.lcut(text3,cut_all=False)))
print('全模式','/'.join(jieba.lcut(text3,cut_all=True)))
print('搜索引擎模式','/'.join(jieba.lcut_for_search(text3)))"""
精确模式     我/是/来自/妈妈/省/的/蓝色妖姬/唱/着/只/因/你/太美而来
全模式       我/是/来自/妈妈/省/的/蓝色/蓝色妖姬/妖姬/唱/着/只因/你/太美/而来
搜索引擎模式  我/是/来自/妈妈/省/的/蓝色/妖姬/蓝色妖姬/唱/着/只/因/你/太美/而来/太美而来"""

三、词云的过程

第一步:数据导入
  • 数据准备,制作词云的数据导入
  • 停用词导入及自定义停用词词典:网上找的停用词及自定义停用词
第二步:数据清洗
  • 去掉数据中的特殊符号或者说只保留中文,如去掉emoj符号,等一些特殊的对分析无用的符号。 方法是用正则方法。
  • 判断词云数据是否是字符串类型,是的话对数据进行切分,把所有的数据保留成一个长的字符串,用空格连接
第三步:准备好产生词云图的文本数据
  • 对清洗后的长字符串进行切分,对其值进行统计得到绘制词云的最终数据import_words.
第四步:制作词云图 这里需要导入worldcolud ,和从PTL导入Tmage
  • 使用PTL里面的 Imag 读取nd array的图片,这一步是通过读取图片的数据,保存成nd array.
  • 使用词云提取图片颜色生成器 ,worldcolund.Imagecolorgenerator( bgim)
  • 设置词云的背景颜色,词云显示的词数及最大最小字体等一些参数,然后将import_words传进来,plt.show就可以完成词云的绘制。、
  • 代码显示
import jieba
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
# 从列表中处理  拿到抖音数据里面的个性签名内容,使用结巴对语句进行切分
dou_yin_data = pd.read_csv('./douyin.csv')# 哈工大、四川大学、百度等都有发布的停用词文件 可以在网上自行获取
# 读取停用词
stop_words_list = pd.read_csv('./stopwords.txt',encoding='gbk',header=None)
for statement in dou_yin_data.signature:print(statement)
# 只保留中文数据
good_words = dou_yin_data.signature.str.replace(r'[^\u4e00-\u9f5a]','')# 产生字符串
content = ''
for statement in good_words :if type(statement) != str:continuewords = jieba.lcut(statement,cut_all=False)for word in words:if word not in stop_words:if word not in stop_words_list:content += word + ' '
## 字符串切分,产生最终绘制词云的数据
import_words = Series(content.split(' ')).value_counts()[10:310]# 绘制词云
from PIL import Image
import wordcloud
# 制作抖音大V签名的词云图
# 舆论分析 评论分析 反馈分析 建议分析# 读取nd array 的图片
bgimg = np.array(Image.open('./bgimg.png'))
# 词云提取图片颜色生成器
genclr = wordcloud.ImageColorGenerator(bgimg)
wc = wordcloud.WordCloud(font_path='./FZZJ-LongYTJW.TTF',# 设置字体background_color='#D4F6CC', # 背景颜色max_words=200,max_font_size=300,min_font_size=5,random_state=42,mask=bgimg,color_func=genclr)# 渲染词云的文体
wc.generate_from_frequencies(import_words)plt.figure(figsize=(18,18))
plt.imshow(wc)
plt.axis('off')

NLP 之 jieba (结巴)制作词云相关推荐

  1. 如何使用爬虫与JieBa库制作词云

    如何使用爬虫与JieBa库制作词云 所需库的安装 所需第三方库为如下: import requests from bs4 import BeautifulSoup from wordcloud imp ...

  2. bilibili怎么设置弹幕数量_python爬取B站视频弹幕分析并制作词云

    1.分析网页 视频地址: www.bilibili.com/video/BV19E- 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己 唯一的爆款 ...

  3. python爬取b站弹幕分析_python爬取B站视频弹幕分析并制作词云

    目录1.分析网页 2.爬虫+jieba分词+制作词云2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页 视频地址:https://www.bilibili.co ...

  4. python爬取胡歌相关视频弹幕,分析并制作词云

    养成习惯,先赞后看!!! 目录 1.分析网页 2.爬虫+jieba分词+制作词云 2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页 视频地址:https:// ...

  5. python爬取B站视频弹幕分析并制作词云

    1.分析网页 视频地址: www.bilibili.com/video/BV19E- 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己 唯一的爆款 ...

  6. 超级详细使用jieba分词用wordcloud制作词云并进行词频统计实例

    最近学习机器学习课程,学到文本分类就研究了下词云如何处理,写下代码和文件以便帮助更多的人,个人变成基础极其薄弱,如有问题请自行修改相关代码. 准备工作 使用命令安装jieba 分词,这里已经帮大家写好 ...

  7. jieba.analyse的使用:提取关键字/词频制作词云

    jieba.analyse的使用:提取关键字/词频制作词云 ① jieba.analyse.extract_tags 提取关键字: print("***案例1***"*3) txt ...

  8. python怎么爬取知乎回答并制作词云_使用python爬取流浪地球影评并制作词云,看看别人都说了些说什么...

    流浪地球影评爬取 大过年的,蹭个热度,看完电影后爬一下影评并作出词云. 本次影评取自豆瓣: https://movie.douban.com/subject/26266893/ 抓包 首先是拿到访问的 ...

  9. Python 爬虫实战(1):分析豆瓣中最新电影的影评并制作词云

    入门Python不久,想做个小项目练练手,碰巧最近一部国产电影<红海行动>反响不错,便萌生想法去抓取一下它最新的评论,并制作词云,来看看网页对这部电影的一些评价,接下来就是开始分析啦(分析 ...

  10. python——三国演义 制作词云

    python--三国演义 制作词云 题目: 设计一个程序,读出threekingdoms.txt文件中的三国演义全文,将常见人名进行去重后生成词云,并列出词频最高的5个词. 例:'玄德','刘备',' ...

最新文章

  1. 服务器怎么修复插件,如何修复服务器状态代码:302由SQL发现我注入了Firefox插件...
  2. nginx真的存在文件类型解析漏洞吗?
  3. 设置QtreeWidget水平滚动条
  4. Delphi中destroy, free, freeAndNil, release用法和区别
  5. mysql 极限优化配置_MySQL优化(二) 优化诀窍
  6. sap此项目以开票无关_大型公司财务共享中心RPA项目实例2则
  7. 保护计算机系统与数据有什么方法,电脑数据保护方法 看完保你不后悔
  8. exchange无法收发邮件_【知乎最详细】Windows邮件amp;日历UWP+QQ邮箱如何设置
  9. 如何向maven仓库中上传第三方jar包(私服)
  10. 2023南京工业大学计算机考研信息汇总
  11. AEC产业未来发展的三大趋势,数字化只是其中之一
  12. php下载Excel背景颜色设置,phpExcel生成的Excel背景填充色变黑
  13. 蓝桥杯 2015 javaB组 校赛
  14. android怎么删除插件,Android手机如何添加删除桌面图标和插件
  15. Referenced file contains errors (xml文件第一行小红叉错误)
  16. 用flex做的3D坦克游戏
  17. win10计算机管理不可用,win10管理员被禁用怎么办,win10怎么管理员运行
  18. 卡通可爱的门户网站登录表单页面
  19. WPF发布程序后未授予信任的解决办法
  20. 获取JOP卡的版本与功能信息

热门文章

  1. shiro权限框架中五张基本数据表
  2. PAT甲级1146 Topological Order (25 分)
  3. Vue.js与Node.js一起打造一款属于自己的音乐App(收藏)
  4. Python_bug之Numpy问题
  5. HDU - 4311 Meeting point-1(最小曼哈顿距离和)
  6. 深入理解各种图片格式
  7. vue中使用 minix 混入
  8. python京东注册账号_Python 模拟京东登陆
  9. “IP地址/24”是什么意思
  10. mt7620a上tf卡驱动的支持