python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——学霸君

# 导入扩展库
import re # 正则表达式库
import collections # 词频统计库
import numpy as np # numpy数据处理库
import jieba # 结巴分词
import wordcloud # 词云展示库
from PIL import Image # 图像处理库
import matplotlib.pyplot as plt # 图像展示库# 读取文件
with open('xuebajunComment.txt','rb') as f:  # 打开新的文本string_data = f.read().decode("utf-8")  # 读取文本数据
f.close() # 关闭文件print(string_data)# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除# 文本分词
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精确模式分词
object_list = []
remove_words = [u'的', u',',u'和', u'是', u'随着', u'对于', u'对',u'等',u'能',u'都',u'。',u' ',u'、',u',',u'!',u'!',u'n',u'?',u'\\',u'中',u'在',u'了',u'啊',u'帮',u'还',u'出来',u'这',u'什么',u'一直',u'拍',u'the',u'下载',u'拍',u'你',u'大家',u'出',u'题目',u'看',u'还有',u'通常',u'如果',u'我们',u'需要',u'',u'很',u'用',u'我',u'可以',u'有',u'小猿',u'搜题',u'搜',u'非常',u'就',u'这个',u'也',u'哦',u'挺',u'给',u'他',u'真的',u'觉得',u'作业',u'要',u'题',u'到',u'有些',u'软件',u'不',u'就是',u'还是',u'但是',u'比',u'吧',u'跟'] # 自定义去除词库for word in seg_list_exact: # 循环读出每个分词if word not in remove_words: # 如果不在去除词库中object_list.append(word) # 分词追加到列表# 词频统计
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_top10 = word_counts.most_common(10) # 获取前10最高频的词
print (word_counts_top10) # 输出检查# 词频展示
#mask = np.array(Image.open('man.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式#mask=mask, # 设置背景图max_words=200, # 最多显示词数max_font_size=100 # 字体最大值
)wc.generate_from_frequencies(word_counts) # 从字典生成词云
#image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案
#wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案
plt.imshow(wc, interpolation="bilinear") # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像
wc.to_file("学霸君.jpg")

代码说明:
xuebajunComment.txt是我的上一篇文章中从华为应用市场网页中爬取的用户评论
我的上一篇文章——>https://blog.csdn.net/weixin_45615730/article/details/108859415

python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——学霸君相关推荐

  1. python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——小猿搜题

    python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云--小猿搜题 # 导入扩展库 import re # 正则表达式库 import collections ...

  2. python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——作业帮

    python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云--作业帮 # 导入扩展库 import re # 正则表达式库 import collections # ...

  3. Python爬虫:爬取华为应用市场app数据

    爬取华为应用商店的所有APP名称和介绍,因为页面数据是ajax异步加载的,所以要找到对应的接口去解析数据. 爬取华为应用市场app数据 一.分析网页 1. 分析主页 2. 分析appid 3. 分析u ...

  4. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...

  5. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——作业帮

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...

  6. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——小猿搜题

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--小猿搜题 import requests import re import requests from bs4 import ...

  7. python3爬取华为应用市场APP安装包实战

    ** python3爬取华为应用市场APP安装包实战 ** 一.用浏览器访问华为应用市场,搜索APP并观察URL规律 比如我们要下载微信,那么在搜索框输入微信并回车,会发现url变成http://ap ...

  8. python爬虫,Scrapy爬取豆瓣电影《芳华》电影短评,分词生成词云图。

    项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...

  9. python3爬虫:爬取电影天堂电影信息

    python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...

最新文章

  1. 基于php下载文件的详解
  2. github 与git 使用 及配置
  3. 电容和频率的关系_为什么会有直流电和交流电?频率为什么是50hz?白话科普专业知识...
  4. 解决Centos6.5虚拟机上网问题
  5. 降低http请求次数
  6. 一份数据分析学习清单.xls
  7. haproxy服务启动命令_安装haproxy和haproxy命令
  8. .NetCore模拟Postman的BasicAuth生成Authrization
  9. python接口自动化(三十六)-封装与调用--流程类接口关联续集(详解)
  10. Maven多模块,Dubbo分布式服务框架,SpringMVC,前后端分离项目,基础搭建,搭建过程出...
  11. 通过JS语句判断WEB网站的访问端是电脑还是手机
  12. 第七章 数据库设计(联系毕业论文))
  13. linux网络调试发包抓包工具
  14. 【软件测试】应用白盒测试实例
  15. UVALive - 3713 Astronauts(2-SAT)
  16. 二线城市疯狂抢人,技术人才何去何从?
  17. 微博授权登录demo php,php实现新浪微博授权登录
  18. uniapp猫眼电影小程序(附带猫眼电影api接口)
  19. FCC算法和数据结构 项目实战:罗马数字转换器
  20. 如何将某一文件添加到信任列表?

热门文章

  1. 关于计算机网络的一些基础实验以及实验心得
  2. CSS学习(3) - 轮廓文本和字体图标
  3. 最新PHP栀子花授权系统源码+功能强大
  4. [转载]钟茂森博士出家,净空老法师现场见证出家盛况_huadingjin_新浪博客
  5. MP4文件刻录成DVD
  6. 微信小程序生成自定义参数二维码
  7. 黑苹果-IOS学习的开始
  8. AXI_Bus_Matrix_4x4 设计
  9. 小车舵机控制linux软件,在Linux(Ubuntu)上使用串口控制ROBOTIS Dynamxiel舵机
  10. 网关、路由器、交换机等网络设备工作在OSI的层