import os
import time
import json
import randomimport jieba
import requests
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
from wordcloud import WordCloud# 词云形状图片
WC_MASK_IMG = 'wawa1.jpg'
# 评论数据保存文件
COMMENT_FILE_PATH = 'test1.txt'
# 词云字体
WC_FONT_PATH = 'C:/Windows/Fonts/simfang.ttf'def spider_comment(page=0):"""爬取京东指定页的评价数据:param page: 爬取第几,默认值为0"""url = 'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv4646&productId=1263013576' \'&score=0&sortType=5&page=%s&pageSize=10&isShadowSku=0&fold=1' % pagekv = {'user-agent': 'Mozilla/5.0', 'Referer': 'https://item.jd.com/1263013576.html'}try:r = requests.get(url, headers=kv)r.raise_for_status()except:print('爬取失败')# 截取json数据字符串r_json_str = r.text[26:-2]# 字符串转json对象r_json_obj = json.loads(r_json_str)# 获取评价列表数据r_json_comments = r_json_obj['comments']# 遍历评论对象列表for r_json_comment in r_json_comments:# 以追加模式换行写入每条评价with open(COMMENT_FILE_PATH, 'a+') as file:file.write(r_json_comment['content'] + '\n')# 打印评论对象中的评论内容print(r_json_comment['content'])def batch_spider_comment():"""批量爬取某东评价"""# 写入数据前先清空之前的数据if os.path.exists(COMMENT_FILE_PATH):os.remove(COMMENT_FILE_PATH)for i in range(100):spider_comment(i)# 模拟用户浏览,设置一个爬虫间隔,防止ip被封time.sleep(random.random() * 5)def cut_word():"""对数据分词:return: 分词后的数据"""with open(COMMENT_FILE_PATH, encoding='utf-8') as file:comment_txt = file.read()wordlist = jieba.cut(comment_txt, cut_all=False)wl = " ".join(wordlist)print(wl)return wldef create_word_cloud():"""生成词云:return:"""# 设置词云形状图片# wc_mask = np.array(Image.open(WC_MASK_IMG))# 设置词云的一些配置,如:字体,背景色,词云形状,大小wc = WordCloud(background_color="white", max_words=2000, scale=4,max_font_size=50, random_state=42, font_path=WC_FONT_PATH)# 生成词云wc.generate(cut_word())# 在只设置mask的情况下,你将会得到一个拥有图片形状的词云plt.imshow(wc, interpolation="bilinear")plt.axis("off")plt.figure()plt.show()if __name__ == '__main__':# 爬取数据# batch_spider_comment()# 生成词云create_word_cloud()

爬取京东评论并生成词云相关推荐

  1. 爬取电影评论并绘制词云

    一 获取豆瓣最新电影的id号和电影名 import requests from bs4 import BeautifulSoup url='https://movie.douban.com/cinem ...

  2. qq动态名片代码_利用Python动态爬取QQ说说并生成词云,分析朋友状况!

    今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况. 这是好友的QQ空间10年说说内容,基本有一个大致的印象了. 爬取动 ...

  3. 【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格

    目录 一些将BV号转化为AV号的变量设置 词云屏蔽词设置 使用代理IP(直接从IP网站复制的) 爬虫的函数 将结果写入表格中 下面是主函数,首先看看能不能抓取到,还有一些变量设置 开始循环爬评论 对一 ...

  4. python爬虫用什么电脑好_【Python】【爬虫】最近想买电脑,用Python爬取京东评论做个参考...

    最近想换电脑,又有点不确定买哪一款.所以决定爬取京东上电脑评论,做个参考,并把最终结果绘制成词云图. 一.先来看下三款电脑评价的词云图 1 用Python爬取京东自营ThinkPad T490s的评论 ...

  5. 【Python爬虫】最近想买电脑,用Python爬取京东评论做个参考

      最近想换电脑,又有点不确定买哪一款.所以决定爬取京东上电脑评论,做个参考,并把最终结果绘制成词云图.    一.先来看下三款电脑评价的词云图    1 用Python爬取京东自营ThinkPad ...

  6. 爬取qq音乐的评论并生成词云——以《听妈妈的话》为例

    爬取qq音乐的评论并生成词云 我们选取的是歌曲的周杰伦的 听妈妈的话 先看效果图 首先,我们进去qq音乐找到这首歌 网易云出来挨打 https://y.qq.com/n/yqq/song/002hXD ...

  7. Python入门--爬取淘宝评论并生成词云

    Python爬取淘宝评论并生成词云 最新修改于2021/04/01 所需相关Python第三方库(目前最新版本即可) 推荐使用Anaconda,其使用十分方便.快捷. requests库 json库 ...

  8. 爬取京东评论、分词+词频统计、词云图展示

    一.爬取京东评论 京东评论竟然全部对外开放 public class CommentCrawler {final static PoolingHttpClientConnectionManager h ...

  9. python词云代码手机_【云计算】爬取淘宝手机品牌词云分析(python)

    本文主要向大家介绍了[云计算]爬取淘宝手机品牌词云分析(python),通过具体的内容向大家展现,希望对大家学习云计算有所帮助. 淘宝手机信息的爬取,请看这边博客(点击这里),然后我们利用其中保存的文 ...

最新文章

  1. DotNet中几种常用的加密算法
  2. 【已解决】虚拟机提示VMware Workstation cannot connect to the virtual machine的问题
  3. boost 变量类型转换
  4. Angular Material 攻略 04 Icon
  5. SpringCloud下的springboot工程,访问jsp页面报404问题
  6. mysql5.5.53安装教程_mysql5.5.28安装教程 超详细!
  7. 欧姆龙OMRON PLC程序,威纶触摸屏螺丝机 配方程序。 用ST语言编写程序+威纶触摸屏程序
  8. 【精】Photoshop抠图全方位攻略
  9. 计算机无法识别u盘,电脑无法识别U盘怎么办?简单搞定
  10. deel t410安装_用DEEL-LIP构建Lipschitz约束网络
  11. 企业知识库的意义何在?到底如何高效搭建一个知识库?
  12. Seeker的奇妙求职历险(华为笔试)
  13. 理解File's ower 和first respond
  14. 自学就能轻松学会搭建网站的步骤教程
  15. win10键盘全部没反应_win10笔记本键盘全部没反应 win10键盘全部没反应解决方法...
  16. Mybatis的where标签,还有这么多知识点
  17. CSS实现文字动画炫酷效果
  18. echart echart-gl
  19. 写作分析——缓和说教内容
  20. 2012年6月9日免费http代理大全

热门文章

  1. 万字详解 Tomcat 组成与工作原理
  2. GMII,RGMII,SGMII,TBI,RTBI接口信号及时序介绍
  3. android化学制图软件,化学工具箱最新版
  4. 数据时代的我们,应该怎么挖掘数据价值
  5. Android 开发 打开手电筒
  6. 米家扫地机器人重置网络_米家扫地机器人骗局? 米家扫地机器人重置
  7. 集成QQ钱包---踩坑
  8. 国开电大-公司财务-形考任务1-5
  9. 类似 MS Project 的项目管理工具有哪些
  10. beecloud resrful api test(nodejs)