python词云分析难吗_【python数据挖掘】使用词云分析来分析豆瓣影评数据
概述:
制作词云的步骤:
1、从文件中读取数据
2、根据数据追加在一个字符串里面,然后用jieba分词器将评论分开
3、设置WordCloud词云参数
4、保存最后的结果
第一步:引入依赖库
# 1、表格库
import csv
# 2、jieba分词器
import jieba
# 3、算法运算库
import numpy
# 4、图像库
from PIL import Image
# 5、词云库
from wordcloud import WordCloud
第二步:读取数据
stars = ("很差","较差","还行","推荐","力荐")
comments = []
with open("files/douban.csv","r",encoding="utf-8") as file:
reader = csv.reader(file)
for i in reader:
if i[1] not in stars:
pass
else:
comments.append(i)
file.close()
第三步:解析数据并保存
str = ""
for i in data:
str+=i[2]
cutWord = " ".join(jieba.cut(str))
bgImg = numpy.array(Image.open("files/a.jpg"))
cloud = WordCloud(
font_path="C:\Windows\Fonts\STZHONGS.TTF",
background_color="white",
mask=bgImg
).generate(cutWord)
cloud.to_file("ciyun.png")
效果图:
模型:
效果:
源代码:
# 1、表格库
import csv
# 2、jieba分词器,将一句话的词语分离出来
# 1)、控制台输入:pip install jieba
# 2)、左上角 file-->settings--->项目
# 3)、清华园下载方式(在控制台)
# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
# 阿里
# pip install jieba -i http://mirrors.aliyun.com/pypi/simple/
import jieba
# 3、算法运算库
# 控制台输入:pip install numpy
# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy
import numpy
# 4、图像库
# 控制台输入:pip install pillow
# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pillow
from PIL import Image
# 5、词云库
# 控制台输入:pip install WordCloud
# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple WordCloud
from wordcloud import WordCloud
# 定义函数,将数据从表格里读取出来
def getDataFromCsv():
# 设置星级等级
stars = ("很差","较差","还行","推荐","力荐")
# 设置空列表,装从表格里面读出来的所有数据
comments = []
# 打开表格,"r"读取模式 读取数据
with open("files/douban.csv","r",encoding="utf-8") as file:
# 表格操作读数据
reader = csv.reader(file)
# 遍历表格里得到所有数据 [用户名,星级,评论]
for i in reader:
# 如果没有星级
if i[1] not in stars:
# 数据无效,忽略不处理
pass
else:
# 数据有效,装入数组
comments.append(i)
# print(comments)
file.close()
# 将装有数据的列表返回出来
return comments
# 定义函数,将解析的评论做成词云
def getWordCloud():
# 调用函数:得到表格中所有的数据
data = getDataFromCsv()
# 定义空的字符串,把所有的评论装进来
str = ""
# 遍历所有的数据
for i in data:
# [用户名, 星级, 评论]
str+=i[2]
# print(str)
# 通过jieba分词器将评论里面的词语用空格分离出来
cutWord = " ".join(jieba.cut(str))
# print(cutWord)
# 读取图片模型
bgImg = numpy.array(Image.open("files/a.jpg"))
# 准备词云参数
cloud = WordCloud(
# 文字的路径:本地的系统文件路径
font_path="C:\Windows\Fonts\STZHONGS.TTF",
# 生成词云的图片背景
background_color="white",
# 参考图片(参数,没有引号)
mask=bgImg
).generate(cutWord)
# 将做成的结果生成图片
cloud.to_file("ciyun.png")
作者
用Python玩转词云
第一步:引入相关的库包: #coding:utf-8 __author__ = 'Administrator' import jieba #分词包 import numpy #numpy计算包 imp ...
python实现使用词云展示图片
记录瞬间 首先,要安装一些第三方包 pip install scipyCollecting scipy Downloading https://files.pythonhosted.org/packa ...
python 制作wordcloud词云
pip install wordcloud 需要用到numpy pillow matplotlib 安装完成以后 wordcloud_cli --text in.txt --imagefile ou ...
python WordCloud 实现词云
简单示例 from matplotlib import pyplot as plt from wordcloud import WordCloud filename = "text.txt& ...
python系列之(3)爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...
【Python】生成词云
import matplotlib.pyplot as plt from wordcloud import WordCloud import jieba text_from_file_with_apa ...
windows下python 正确安装词云包wordcloud的方法
安装wordcloud的时候果然还是出现了问题,试了网上说的好多办法,最后找到了一种成功率高的,可以优先尝试一下 下载.whl文件http://www.lfd.uci.edu/~gohlke/pyth ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
随机推荐
JQuery中的html(),text(),val()区别
jQuery中.html()用为读取和修改元素的HTML标签,.text()用来读取或修改元素的纯文本内容,.val()用来读取或修改表单元素的value值. 1.HTML html():取得第一个匹 ...
destoon实现调用热门关键字的方法
本文所述的destoon调用热门关键字的方法是根据数据库里面的保存的搜索的关键字来显示的.每个模块下面都有各自的关键字下面是调用的标签: ? 1
python词云分析难吗_【python数据挖掘】使用词云分析来分析豆瓣影评数据相关推荐
- 基于python的智能文本分析 豆瓣_长文干货 | 基于豆瓣影评数据的完整文本分析!...
原标题:长文干货 | 基于豆瓣影评数据的完整文本分析! 作者:沂水寒城,CSDN博客专家,个人研究方向:机器学习.深度学习.NLP.CV Blog: http://yishuihancheng.blo ...
- python豆瓣影评_使用Python抓取豆瓣影评数据的方法
抓取豆瓣影评评分 正常的抓取 分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=20& ...
- 豆瓣影评数据抓取与简要分析
数据格式: cmt_id: 影评ID编号, 主键 cmt_cont: 未切割影评数据(原始影评数据) cmt_star: 评分(星数) cmt_time: 发布时间 cmt_user: 发布者url ...
- python编程小学生学难吗_为什么小学生都要学Python
IT行业的人肯定都听过一句话,"人生苦短,我用Python."其实后面还有一句,学完Python,便可上天. Python已经被列入山东省小学教材,浙江省高考也会有Python的身 ...
- python翻页爬豆瓣影评_荐爬虫7_《隐秘的角落》豆瓣影评爬取及可视化分析
本文源码:百度云 提取码 pra2 影评爬取 豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评.一般.差评各220条,共计630条.爬取维度为评论类型.点赞数.评分.发布日期.评论. ...
- python打开excel执行vba代码_“Python替代Excel Vba”系列(终):vba中调用Python
请关注本号,后续会有更多相关教程. 系列文章 学Python还不会处理Excel数据?带你用pandas玩转各种数据处理"Python替代Excel Vba"系列(二):panda ...
- 学python和java哪个难?,java和python哪个难学
java和python哪个好学 ①python比Java简单,学习成本低,开发效率高;②Java运行效率高于python,尤其是纯python开发的程序,效率极低;③Java相关资料多,尤其是中文资料 ...
- python三维图如何标注曲面_(python)使用colormap作为第4维,x,y,z函数绘制3d曲面 - python...
我正在尝试绘制3d曲面,其中三个维度中的每个维度都在单独的值数组中,并且每个坐标处的曲面着色是x,y,z的函数.一种numpy.pcolormesh,但是是4D而不是3D的. 3D图由下式给出: fr ...
- python中for循环的用法_@Python小白,一文让你掌握Python爬虫
兴趣 我没事喜欢逛知乎,有一段时间看到了这个问题:利用爬虫技术能做到哪些很酷很有趣很有用的事情: http://t.cn/RptGOPx 觉得回答的一个个炒鸡酷炫 就对爬虫产生了浓厚的兴趣, 于是就开 ...
- python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)
爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...
最新文章
- linux数据库创建score表,MySQL数据库学习笔记
- 使用mysql_fetch_row()以数组的形式返回查询结果
- 在Horizon Workspace中配置Windows单点登录-进阶篇
- Windows Server 2003摆脱了恼人的Ctrl+Alt+Del
- 在MATLAB中,用Simulink搭建一个二阶传递函数模型
- LeetCode-726. 原子的数量(python2)
- firewall mysql端口_Centos7 firewall开放3306端口
- Menelaus定理与证明
- 商业银行如何进行分布式数据库选型思考
- layui引用html显示404错误,如何解决layui报错问题
- Cesium加载GeoServer发布的SHP和GeoTIFF文件
- matlab朴素贝叶斯手写数字识别_「深度学习系列」PaddlePaddle之手写数字识别
- iOS IPv6 被拒2
- MSN在线代码|QQ在线客服代码|SKYPE 贸易通在线代码
- 芯片测试的目的及原理介绍
- mysql 1236_MySQL 1236错误解决方法
- reactinput聚焦事件_React中的事件
- 这个世界没有想象中的那么好,但似乎 ...... 也没那么糟
- 史上最简单的图片二维码识别
- 转至老熊三分地--inside sqlplus prelim
热门文章
- 如何在小方框上打对号 小方框内打对勾 word 方框打对勾
- cdn的费是多少_CDN多少钱_CDN服务如何收费_CDN服务价格-华为云
- html文本域 高度自适应,Javascript 文本域根据输入内容自适应高度
- html表单颜色背景图片大全,css背景颜色、背景图片,以及列表的多种样式
- mysql索引的子部分_Mysql索引数据结构详解及性能调优
- 奇迹暖暖安卓鸿蒙互通吗,奇迹暖暖安卓和ios互通吗 奇迹暖暖苹果和安卓能一起玩吗...
- 计算机思维对本专业的影响,计算机专业本科生创新思维培养及其哲学思考
- MATLAB 生成均匀分布、正态分布、对数正态分布随机数
- Excel技能培训之八合并计算,多区域合并计算,分类汇总,展开隐藏列
- 广告行业中静态创意和动态创意区别