一、爬取豆瓣热评

该程序进行爬取豆瓣热评,将爬取的评论(json文件)保存到与该python文件同一级目录下
注意需要下载这几个库:requests、lxml、json、time

import requests
from lxml import etree
import json
import time
class Spider(object):def __init__(self):#seif.ure='https://movie.douban.com/subject/23885074/reviews?start=0'self.headers={'User-Agent':'Mozilla/5.0(Windows NT6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/75.0.3700.100Safari/537.36'}def get_data(self,url):response = requests.get(url,headers=self.headers).content.decode('utf-8')page=etree.HTML(response)#xpath 对象#获取所有数据节点node_list = page.xpath('//div[@class="review-list  "]/div')for node in node_list:#作者author = node.xpath('.//header[@class="main-hd"]//a[2]/text()')[0]#评论text = node.xpath('string(.//div[@class="main-bd"]//div[@class="short-content"])')items={'author':author,'text':text.strip()}#持久化存储with open('yewen.json','a',encoding='utf-8') as f:f.write(json.dumps(items,ensure_ascii=False)+'\n')def run(self):for i in range(1,47):url='https://movie.douban.com/subject/26885074/reviews?start{}'.format(i*20)print('正在爬取第{}页'.format(i))self.get_data(url)time.sleep(3)
if __name__=='__main__':s=Spider()s.run()

二、制作词云

该程序将json中的数据进行处理,提取重要信息,并用wordcloud库制作词云图片,同样保存到与该python文件同一级目录下
注意需要下载这几个库:jieba、wordcloud、json

import jieba
from wordcloud import WordCloud
import json
f= open("yewen.json", "r", encoding="utf-8")
data_list= f.readlines()
str =''
for data in data_list:text= json.loads(data)['text']str +=text
#替换无关紧要的词语
result_str = str.replace('展开', '').replace('这篇','').replace('影评','').replace('电影','').replace('这部', '').replace('可能', '').replace('剧情','')
cut_text = jieba.lcut(result_str)
result = " ".join(cut_text)
wc = WordCloud(font_path='simhei.ttf',background_color="white",max_words=600,width=1000,height=1000,min_font_size=20,max_font_size=100,)#mast=plt.imreda('snake.jpg')#背景图片
wc.generate(result)#转化为词云的操作
wc.to_file("text.jpg")#保存
f.close()

python爬取豆瓣评论,并制作成词云相关推荐

  1. 用Python爬取B站弹幕并做成词云

    用Python爬取B站弹幕并做成词云 一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...

  2. python 东哥 with open_向娱乐圈看齐,Python爬取微博评论并制作酷炫的词云!

    2019年伊始,祝愿各位多吃不胖,身体倍儿棒! image 回顾刚刚过去的2018,还有哪些新闻在你心底留有印象? image 怎奈年纪增长,记忆减退,逝去的爆炸新闻也逐渐褪色变得索然无味,毕竟一直以 ...

  3. 批量爬取豆瓣短评并批量生成词云

    批量爬取豆瓣短评并批量制作为词云 我分为两步实现获取短评和制作词云 1.批量爬取豆瓣短评 from bs4 import BeautifulSoup import requests import th ...

  4. 爬取豆瓣电影短评并使用词云简单分析top50

    先使用进程池爬取豆瓣电影短评 import requests import re import random import time import pandas as pd from pymongo ...

  5. python爬取QQ空间说说并生成词云

    以下是生成的词云图  我的环境:Mac,Anaconda,Python2.7,以及各种用到的Python库 先来说下Anaconda Anaconda 是一个可用于科学计算的 Python 发行版,支 ...

  6. python电影评论的情感分析流浪地球_python爬取豆瓣流浪地球影评,生成词云

    代码很简单,一看就懂. (没有模拟点击,所以都是未展开的) 地址: https://movie.douban.com/subject/26266893/reviews?rating=&star ...

  7. python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...

    def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...

  8. 看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云

    简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧.通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦! 很多人学习python,不知道从何学起. 很多人学习python,掌 ...

  9. 用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)

    爬虫入门:python爬取豆瓣影评及影片信息:影片评分.评论时间.用户ID.评论内容 思路分析 元素定位 完整代码 豆瓣网作为比较官方的电影评价网站,有很多对新上映影片的评价,不多说,直接进入正题. ...

最新文章

  1. Kubernetes之路 2 - 利用LXCFS提升容器资源可见性
  2. pycharm如何执行高级撤销操作回到历史
  3. IntelliJ IDEA 快捷键快速实用篇
  4. js实现表格无缝滚动效果
  5. vfp语言第 代计算机语言,VFP语言属于第()代计算机语言。A、一B、二C、三D、四...
  6. git常用命名行总结
  7. react table里跳转页面_如何在react中实现一个table切换?
  8. 动手实现深度学习pytroch版
  9. H3C 单区域OSPF配置示例二
  10. 部署到gcp_GCP 网络系统Andromeda --- 概述篇
  11. html输入框2位小数,input输入框数字限制(2位小数,含0的正整数)
  12. 设置开机不自动进入锁屏状态
  13. 思科6509系统升级及单引擎升级为双引擎
  14. 【优化算法】烟花优化算法(FWA)【含Matlab源码 1079期】
  15. 怎么还原打开方式为计算机程序,W10电脑系统如何还原打开方式
  16. [转]美国大杏仁并不是杏仁,而是扁桃仁
  17. 根据生日自动计算年龄
  18. idea remote debug
  19. 反向跟单——羊群效应
  20. java开学考试感想及代码

热门文章

  1. 【Python案例】基于Pygame黑白棋游戏(附源码)
  2. M1卡 不能使用KeyB进行读写的问题
  3. 毕业设计--2020.02.18 奇耘4.2寸墨水屏的程序设计思路分享
  4. 多伦多计算机科学排名,Times公布的计算机和工程专业排名,多伦多大学占两大榜首,最抢眼!...
  5. 来人!把朕的线性代数呈上来!
  6. R柱状图,叠图(排序)
  7. 【历史上的今天】6 月 15 日:第一个手机病毒;AI 巨匠司马贺诞生;Chromebook 发布
  8. Vue.js 框架源码与进阶 - Vue.js 源码剖析 - 响应式原理
  9. ubuntu18.04交叉编译移植OpenCV4.70和QT5.12.12至ARM64位平台LKD3588(开发板为ubuntu22.04系统)(三)
  10. NVT | NVT 67X IQ移植