python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——学霸君
python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——学霸君
# 导入扩展库
import re # 正则表达式库
import collections # 词频统计库
import numpy as np # numpy数据处理库
import jieba # 结巴分词
import wordcloud # 词云展示库
from PIL import Image # 图像处理库
import matplotlib.pyplot as plt # 图像展示库# 读取文件
with open('xuebajunComment.txt','rb') as f: # 打开新的文本string_data = f.read().decode("utf-8") # 读取文本数据
f.close() # 关闭文件print(string_data)# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除# 文本分词
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精确模式分词
object_list = []
remove_words = [u'的', u',',u'和', u'是', u'随着', u'对于', u'对',u'等',u'能',u'都',u'。',u' ',u'、',u',',u'!',u'!',u'n',u'?',u'\\',u'中',u'在',u'了',u'啊',u'帮',u'还',u'出来',u'这',u'什么',u'一直',u'拍',u'the',u'下载',u'拍',u'你',u'大家',u'出',u'题目',u'看',u'还有',u'通常',u'如果',u'我们',u'需要',u'',u'很',u'用',u'我',u'可以',u'有',u'小猿',u'搜题',u'搜',u'非常',u'就',u'这个',u'也',u'哦',u'挺',u'给',u'他',u'真的',u'觉得',u'作业',u'要',u'题',u'到',u'有些',u'软件',u'不',u'就是',u'还是',u'但是',u'比',u'吧',u'跟'] # 自定义去除词库for word in seg_list_exact: # 循环读出每个分词if word not in remove_words: # 如果不在去除词库中object_list.append(word) # 分词追加到列表# 词频统计
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_top10 = word_counts.most_common(10) # 获取前10最高频的词
print (word_counts_top10) # 输出检查# 词频展示
#mask = np.array(Image.open('man.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式#mask=mask, # 设置背景图max_words=200, # 最多显示词数max_font_size=100 # 字体最大值
)wc.generate_from_frequencies(word_counts) # 从字典生成词云
#image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案
#wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案
plt.imshow(wc, interpolation="bilinear") # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像
wc.to_file("学霸君.jpg")
代码说明:
xuebajunComment.txt是我的上一篇文章中从华为应用市场网页中爬取的用户评论
我的上一篇文章——>https://blog.csdn.net/weixin_45615730/article/details/108859415
python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——学霸君相关推荐
- python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——小猿搜题
python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云--小猿搜题 # 导入扩展库 import re # 正则表达式库 import collections ...
- python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——作业帮
python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云--作业帮 # 导入扩展库 import re # 正则表达式库 import collections # ...
- Python爬虫:爬取华为应用市场app数据
爬取华为应用商店的所有APP名称和介绍,因为页面数据是ajax异步加载的,所以要找到对应的接口去解析数据. 爬取华为应用市场app数据 一.分析网页 1. 分析主页 2. 分析appid 3. 分析u ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——作业帮
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——小猿搜题
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--小猿搜题 import requests import re import requests from bs4 import ...
- python3爬取华为应用市场APP安装包实战
** python3爬取华为应用市场APP安装包实战 ** 一.用浏览器访问华为应用市场,搜索APP并观察URL规律 比如我们要下载微信,那么在搜索框输入微信并回车,会发现url变成http://ap ...
- python爬虫,Scrapy爬取豆瓣电影《芳华》电影短评,分词生成词云图。
项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...
- python3爬虫:爬取电影天堂电影信息
python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...
最新文章
- 基于php下载文件的详解
- github 与git 使用 及配置
- 电容和频率的关系_为什么会有直流电和交流电?频率为什么是50hz?白话科普专业知识...
- 解决Centos6.5虚拟机上网问题
- 降低http请求次数
- 一份数据分析学习清单.xls
- haproxy服务启动命令_安装haproxy和haproxy命令
- .NetCore模拟Postman的BasicAuth生成Authrization
- python接口自动化(三十六)-封装与调用--流程类接口关联续集(详解)
- Maven多模块,Dubbo分布式服务框架,SpringMVC,前后端分离项目,基础搭建,搭建过程出...
- 通过JS语句判断WEB网站的访问端是电脑还是手机
- 第七章 数据库设计(联系毕业论文))
- linux网络调试发包抓包工具
- 【软件测试】应用白盒测试实例
- UVALive - 3713 Astronauts(2-SAT)
- 二线城市疯狂抢人,技术人才何去何从?
- 微博授权登录demo php,php实现新浪微博授权登录
- uniapp猫眼电影小程序(附带猫眼电影api接口)
- FCC算法和数据结构 项目实战:罗马数字转换器
- 如何将某一文件添加到信任列表?
热门文章
- 关于计算机网络的一些基础实验以及实验心得
- CSS学习(3) - 轮廓文本和字体图标
- 最新PHP栀子花授权系统源码+功能强大
- [转载]钟茂森博士出家,净空老法师现场见证出家盛况_huadingjin_新浪博客
- MP4文件刻录成DVD
- 微信小程序生成自定义参数二维码
- 黑苹果-IOS学习的开始
- AXI_Bus_Matrix_4x4 设计
- 小车舵机控制linux软件,在Linux(Ubuntu)上使用串口控制ROBOTIS Dynamxiel舵机
- 网关、路由器、交换机等网络设备工作在OSI的层