python词云图的制作(用户评论分析)
完整代码:python+词云图+自然语言处理-自然语言处理文档类资源-CSDN下载
1.获取评论信息
第一步就是数据采集部分,可以使用数据采集工具进行数据采集,也可以用python进行数据爬取,获得评论数据并存入本地
2.机械压缩去词
(1)机械压缩去词的思想
例如“非常好非常好非常好非常好非常好非常好非常好非常好”
以及“好呀好呀好呀好呀好呀好呀好呀好呀”
这一类是存在连续重复的语料,也是最常见的较长的无意义语料。是需要删除的。
(2)机械压缩去词处理的语料结构
机械压缩去词实际上要处理的语料就是语料中有连续累赘重复的部分,从一般的评论偏好角度来讲,一般人制造无意义的连续重复只会在开头或者结尾进行。
(3)机械压缩去词处理过程的连续累赘重复的判断及压缩规则的阐述
连续累赘重复的判断可通过建立两个存放国际字符的列表来完成,先放一个列表,再放第二个列表,一个个读取国际字符,并按照不同情况,将其放入第一或第二个列表或触发压缩判断,若得出重复则压缩去除。
规则1:如果读入的字符与第一个列表的第一个字符相同,而第二个列表没有任何放入的国际字符,则将这个字符放入第二个列表中。
规则2:如果读入的字符与第一个列表的第一个字符相同,而第二个列表也有国际字符,则触发压缩判断,若得出重复,则进行压缩去除,清空第二个列表。
规则3:如果读入的字符与第一个列表的第一个字符相同,而第二个列表也有国际字符,则触发压缩判断,若得出不重复,则清空两个列表,把读入的这个字符放入第一个列表第一个位置。
规则4:如果读入的字符与第一个列表的第一个字符不相同,触发压缩判断,如果得出重复且列表所含国际字符数且大于等于2,则进行压缩去除,清空两个列表,把读入的这个放入第一个列表第一个位置。
规则5:如果读入的字符与第一个列表的第一个字符不相同,触发压缩判断。若得出不重复且第二个列表没有放入国际字符,则继续在第一个列表放入国际字符。
规则 6:如果读入的字符与第一个列表的第一个字符不相同,触发压缩判断,若得出不重复且第二个列表已放入国际字符,则继续在第二个列表放入国际字符。
规则7:读完所有国际字符后,触发压缩判断,对第一个列表以及第二个列表有意义部分进行比较,若得出重复,则进行压缩去除。
(4)机械压缩去词处理操作流程
根据上述规则,可以完成对开头连续重复的处理。也可以对处理过的文本再进行一次结尾连续重复的机械压缩去词,算法思想是相近的,只是从尾部开始读词。
2.3 短句删除
(1)短句删除的原因及思想
完成机械压缩去词处理后,则进行最后的预处理步骤:短句删除。要删除掉过短的评论文本数据,以去除掉没有意义的评论,例如,
1)原本就过短的评论文本。
2)经机械压缩去词处理后过短的评论文本。
(2)保留的评论的字数下限的确定
可以结合特定语料来确定,一般4~8个国际字符都是较为合理的下限。
3.文本评论分词
进行中文文本挖掘时,首先应对文本分词,即将连续的字序列按照一定的规范重新组合成词序列的过程。
采用Python中的中文分词包“jieba”(结巴分词),对TXT文档中的商品评论数据进行中文分词。“结巴分词”提供分词、词性标注、未登录词识别,支持用户词典等功能。
4.制作词云图
基于collections库统计出高频词,并制作出词云图
python词云图的制作(用户评论分析)相关推荐
- 数据可视化:利用Python和Echarts制作“用户消费行为分析”可视化大屏
数据可视化:利用Python和Echarts制作"用户消费行为分析"可视化大屏 前言 实验目的: 准备工作: 一.创建项目: 二.建立数据库连接获取数据: 三.页面布局: 四.下载 ...
- python词云图制作壮观天体照_超简单:快速制作一款高逼格词云图
词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 一.先看看几个词云图 ...
- 生成中文词云图的制作:带有不同的背板
简 介: 使用Python中的响应软件软件包制作应用与中文的词云图片.使用jieba用于中文词语划分.文中对于程序的背景图片以及不同的字体所确定的词云的表现进行了测试. 关键词: 词云,字体,背景 # ...
- 词云图制作:15张炫酷的词云图海报、PPT报告词云图、3D词云图,MagicCloud词云图一键制作软件
整理了15张之前做过的的词云图存放起来. 用到的词云图制作软件:词云社研发的的MagicCloud词云图一键制作软件. 先看看软件的模样: 再看看官方给出的软件中的主要功能: 软件中部分功能的使用教程 ...
- 文献调研-词云图的制作
文献调研-词云图的制作(以关键字为例) 第一步,下载制作工具,VOSviewer,网址链https://www.vosviewer.com/download,下载完成后直接安装即可: 第二步,准备数据 ...
- python文本挖掘与分析:热剧《延禧攻略》用户评论分析
需要用到的工具:pycharm编辑器,python3 主要用到的库:re,urllib,requests,time,BeautifulSoup,selenium,numpy,matplotlib,ji ...
- python词云图素材_用Python制作酷炫词云图,原来这么简单!
一.简介 词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词:! 图1 词云图示例 在Python中有很多可视化框架可以用来制作词云图,如pyecharts,但这 ...
- python词云图制作壮观天体照_用Python制作酷炫词云图,原来这么简单!
二.利用wordcloud绘制词云图 wordcloud 是Python中制作词云图比较经典的一个模块,赋予用户高度的自由度来创作词云图: 图2 wordcloud制作词云图示例2.1 从一个简单的例 ...
- python词云图制作壮观天体照_【Python成长之路】词云图制作
[写在前面] 以前看到过一些大神制作的词云图 ,觉得效果很有意思.如果有朋友不了解词云图的效果,可以看下面的几张图(图片都是网上找到的): 网上找了找相关的软件,有些软件制作 还要付费.结果前几天在大 ...
- python文本挖掘与分析:歌曲《说散就散》网易云音乐平台用户评论分析
一.准备工作: 1.python3.x 2.编辑器pycharm 3.requests,json,os,base64,codecs,AES,pymysql(存入什么样的数据库就用什么,也可以不用数据库 ...
最新文章
- matlab随机数生成
- 从杂技表演到日剧BGM(r12笔记第23天)
- Orchard学习笔记四:启用用户注册
- 饥荒海难创建显示专用服务器,饥荒创建世界时一直显示启动服务器 | 手游网游页游攻略大全...
- OSPF次末节区域配置 201
- 信息奥赛一本通(1311:【例2.5】求逆序对)
- 【I】ZF2安装 和 创建一个新项目
- Command line is too long. Shorten command line for Application---微服务升级_SpringCloud Alibaba工作笔记0067
- 猎洞高手轻松变身Gsuite 超级管理员接管他人的 Gsuite 账户
- Spring生态系统(Spring可能大家都在用,很少去关注整体架构)
- EndNote X9导入论文投稿的期刊参考文献格式
- 陆金所杨晓军:金融与区块链结合将…
- 数据库的部分依赖,完全依赖,传递依赖以及三种范式
- 计算机显示文档在哪打开,我的文档在哪?小编教你找到电脑Windows系统我的文档在哪...
- 爬虫-百度安全验证-图片旋转验证-深度学习解决方案
- 联通、华为携手打造5G专网,解决煤矿井下作业难题
- java中的消息队列
- Python 爬虫实战(1):分析豆瓣中最新电影的影评
- 关于GetDC()和ReleaseDC()的问题
- nsis升级包_NSIS:制作软件升级安装包
热门文章
- moviepy图片和文字合成视频
- sim800L调试问题
- 【测试】软件测试的生命周期
- 【JY】No.7.2力学架构迈达斯使用教程
- 新版win10卸载Microsoft Edge
- allegro17.4绘制PCB封装-R0603
- 如何在JUnit5中使用Mockito
- 多拨测试软件,openwrt一线多拨网速叠加操作(网友提供)测试速度请用的方式不要用360那些测试软件...
- k20pro刷鸿蒙,红米K20Pro(Redmi K20Pro)一键刷入RECOVERY获取ROOT权限-刷机教程
- 率辉考研oj——1323: 算法2-1:集合union