NLP 之 jieba (结巴)制作词云

一、jieba的导入

%pip install jieba

二、 jieba 结巴分词的几种模式及使用

精确模式
- 精确划分，视图将句子最精确地切分，适合文本分析
```
jieba.lcut(text,cul_all=False)
```
全局模式
- 全模式把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义
```
jieba.lcut(text,cul_all=True)
```
搜索引擎模式
- 搜索引擎模式，是在精确划分的基础上，再进行全模式划分，，提高召唤率，适合用于搜索引擎分词。
- ```
jieba.lcut_for_search(text)
```

展示三种模式

text2 = '落霞与孤鹜齐飞，秋水共长天一色'print('精确搜索','/'.join(jieba.lcut(text2,cut_all=False)))
print('全模式','/'.join(jieba.lcut(text2,cut_all=True)))
print('搜索引擎模式','/'.join(jieba.lcut_for_search(text2)))"""
精确搜索     落霞与孤鹜齐飞/，/秋水共长天一色
全模式       落霞/落霞与孤鹜齐飞/，/秋水/秋水共长天一色/长天/天一/一色
搜索引擎模式  落霞/落霞与孤鹜齐飞/，/秋水/长天/天一/一色/秋水共长天一色
"""

如果有一些网络热词，能够被识别出来，不要被切分开，就要进行自定义一个词典，这个词典本身是txt文档,然后先试用jieba.load_userdict(‘文档地址’),再根据需求，使用jieba中任意一个模式进行切分。

text3 = '我是来自妈妈省的蓝色妖姬唱着只因你太美而来'
jieba.load_userdict('dict.txt')print('精确模式','/'.join(jieba.lcut(text3,cut_all=False)))
print('全模式','/'.join(jieba.lcut(text3,cut_all=True)))
print('搜索引擎模式','/'.join(jieba.lcut_for_search(text3)))"""
精确模式     我/是/来自/妈妈/省/的/蓝色妖姬/唱/着/只/因/你/太美而来
全模式       我/是/来自/妈妈/省/的/蓝色/蓝色妖姬/妖姬/唱/着/只因/你/太美/而来
搜索引擎模式  我/是/来自/妈妈/省/的/蓝色/妖姬/蓝色妖姬/唱/着/只/因/你/太美/而来/太美而来"""

三、词云的过程

第一步：数据导入

数据准备，制作词云的数据导入
停用词导入及自定义停用词词典：网上找的停用词及自定义停用词

第二步：数据清洗

去掉数据中的特殊符号或者说只保留中文，如去掉emoj符号，等一些特殊的对分析无用的符号。方法是用正则方法。
判断词云数据是否是字符串类型，是的话对数据进行切分，把所有的数据保留成一个长的字符串，用空格连接

第三步：准备好产生词云图的文本数据

对清洗后的长字符串进行切分，对其值进行统计得到绘制词云的最终数据import_words.

第四步：制作词云图这里需要导入worldcolud ，和从PTL导入Tmage

使用PTL里面的 Imag 读取nd array的图片，这一步是通过读取图片的数据,保存成nd array.
使用词云提取图片颜色生成器 ,worldcolund.Imagecolorgenerator( bgim)
设置词云的背景颜色，词云显示的词数及最大最小字体等一些参数，然后将import_words传进来，plt.show就可以完成词云的绘制。、
代码显示

import jieba
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
# 从列表中处理  拿到抖音数据里面的个性签名内容，使用结巴对语句进行切分
dou_yin_data = pd.read_csv('./douyin.csv')# 哈工大、四川大学、百度等都有发布的停用词文件 可以在网上自行获取
# 读取停用词
stop_words_list = pd.read_csv('./stopwords.txt',encoding='gbk',header=None)
for statement in dou_yin_data.signature:print(statement)
# 只保留中文数据
good_words = dou_yin_data.signature.str.replace(r'[^\u4e00-\u9f5a]','')# 产生字符串
content = ''
for statement in good_words :if type(statement) != str:continuewords = jieba.lcut(statement,cut_all=False)for word in words:if word not in stop_words:if word not in stop_words_list:content += word + ' '
## 字符串切分，产生最终绘制词云的数据
import_words = Series(content.split(' ')).value_counts()[10:310]# 绘制词云
from PIL import Image
import wordcloud
# 制作抖音大V签名的词云图
# 舆论分析 评论分析 反馈分析 建议分析# 读取nd array 的图片
bgimg = np.array(Image.open('./bgimg.png'))
# 词云提取图片颜色生成器
genclr = wordcloud.ImageColorGenerator(bgimg)
wc = wordcloud.WordCloud(font_path='./FZZJ-LongYTJW.TTF',# 设置字体background_color='#D4F6CC', # 背景颜色max_words=200,max_font_size=300,min_font_size=5,random_state=42,mask=bgimg,color_func=genclr)# 渲染词云的文体
wc.generate_from_frequencies(import_words)plt.figure(figsize=(18,18))
plt.imshow(wc)
plt.axis('off')

NLP 之 jieba (结巴)制作词云相关推荐

如何使用爬虫与JieBa库制作词云
如何使用爬虫与JieBa库制作词云所需库的安装所需第三方库为如下: import requests from bs4 import BeautifulSoup from wordcloud imp ...
bilibili怎么设置弹幕数量_python爬取B站视频弹幕分析并制作词云
1.分析网页视频地址: www.bilibili.com/video/BV19E- 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己唯一的爆款 ...
python爬取b站弹幕分析_python爬取B站视频弹幕分析并制作词云
目录1.分析网页 2.爬虫+jieba分词+制作词云2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页视频地址:https://www.bilibili.co ...
python爬取胡歌相关视频弹幕,分析并制作词云
养成习惯,先赞后看!!! 目录 1.分析网页 2.爬虫+jieba分词+制作词云 2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页视频地址:https:// ...
python爬取B站视频弹幕分析并制作词云
1.分析网页视频地址: www.bilibili.com/video/BV19E- 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己唯一的爆款 ...
超级详细使用jieba分词用wordcloud制作词云并进行词频统计实例
最近学习机器学习课程,学到文本分类就研究了下词云如何处理,写下代码和文件以便帮助更多的人,个人变成基础极其薄弱,如有问题请自行修改相关代码. 准备工作使用命令安装jieba 分词,这里已经帮大家写好 ...
jieba.analyse的使用：提取关键字/词频制作词云
jieba.analyse的使用:提取关键字/词频制作词云 ① jieba.analyse.extract_tags 提取关键字: print("***案例1***"*3) txt ...
python怎么爬取知乎回答并制作词云_使用python爬取流浪地球影评并制作词云，看看别人都说了些说什么...
流浪地球影评爬取大过年的,蹭个热度,看完电影后爬一下影评并作出词云. 本次影评取自豆瓣: https://movie.douban.com/subject/26266893/ 抓包首先是拿到访问的 ...
Python 爬虫实战（1）：分析豆瓣中最新电影的影评并制作词云
入门Python不久,想做个小项目练练手,碰巧最近一部国产电影<红海行动>反响不错,便萌生想法去抓取一下它最新的评论,并制作词云,来看看网页对这部电影的一些评价,接下来就是开始分析啦(分析 ...
python——三国演义制作词云
python--三国演义制作词云题目: 设计一个程序,读出threekingdoms.txt文件中的三国演义全文,将常见人名进行去重后生成词云,并列出词频最高的5个词. 例:'玄德','刘备',' ...

NLP 之 jieba (结巴)制作词云

NLP 之 jieba (结巴)制作词云

一、jieba的导入

二、 jieba 结巴分词的几种模式及使用

三、词云的过程

第一步：数据导入

第二步：数据清洗

第三步：准备好产生词云图的文本数据

第四步：制作词云图这里需要导入worldcolud ，和从PTL导入Tmage

NLP 之 jieba (结巴)制作词云相关推荐

最新文章

热门文章

NLP 之 jieba (结巴)制作词云

NLP 之 jieba (结巴)制作词云

一 、jieba的导入

二、 jieba 结巴分词的几种模式及使用

三、词云的过程

第一步：数据导入

第二步：数据清洗

第三步：准备好产生词云图的文本数据

第四步：制作词云图 这里需要导入worldcolud ，和从PTL导入Tmage

NLP 之 jieba (结巴)制作词云相关推荐

最新文章

热门文章

一、jieba的导入

第四步：制作词云图这里需要导入worldcolud ，和从PTL导入Tmage