python爬取豆瓣评论,并制作成词云
一、爬取豆瓣热评
该程序进行爬取豆瓣热评,将爬取的评论(json文件)保存到与该python文件同一级目录下
注意需要下载这几个库:requests、lxml、json、time
import requests
from lxml import etree
import json
import time
class Spider(object):def __init__(self):#seif.ure='https://movie.douban.com/subject/23885074/reviews?start=0'self.headers={'User-Agent':'Mozilla/5.0(Windows NT6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/75.0.3700.100Safari/537.36'}def get_data(self,url):response = requests.get(url,headers=self.headers).content.decode('utf-8')page=etree.HTML(response)#xpath 对象#获取所有数据节点node_list = page.xpath('//div[@class="review-list "]/div')for node in node_list:#作者author = node.xpath('.//header[@class="main-hd"]//a[2]/text()')[0]#评论text = node.xpath('string(.//div[@class="main-bd"]//div[@class="short-content"])')items={'author':author,'text':text.strip()}#持久化存储with open('yewen.json','a',encoding='utf-8') as f:f.write(json.dumps(items,ensure_ascii=False)+'\n')def run(self):for i in range(1,47):url='https://movie.douban.com/subject/26885074/reviews?start{}'.format(i*20)print('正在爬取第{}页'.format(i))self.get_data(url)time.sleep(3)
if __name__=='__main__':s=Spider()s.run()
二、制作词云
该程序将json中的数据进行处理,提取重要信息,并用wordcloud库制作词云图片,同样保存到与该python文件同一级目录下
注意需要下载这几个库:jieba、wordcloud、json
import jieba
from wordcloud import WordCloud
import json
f= open("yewen.json", "r", encoding="utf-8")
data_list= f.readlines()
str =''
for data in data_list:text= json.loads(data)['text']str +=text
#替换无关紧要的词语
result_str = str.replace('展开', '').replace('这篇','').replace('影评','').replace('电影','').replace('这部', '').replace('可能', '').replace('剧情','')
cut_text = jieba.lcut(result_str)
result = " ".join(cut_text)
wc = WordCloud(font_path='simhei.ttf',background_color="white",max_words=600,width=1000,height=1000,min_font_size=20,max_font_size=100,)#mast=plt.imreda('snake.jpg')#背景图片
wc.generate(result)#转化为词云的操作
wc.to_file("text.jpg")#保存
f.close()
python爬取豆瓣评论,并制作成词云相关推荐
- 用Python爬取B站弹幕并做成词云
用Python爬取B站弹幕并做成词云 一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...
- python 东哥 with open_向娱乐圈看齐,Python爬取微博评论并制作酷炫的词云!
2019年伊始,祝愿各位多吃不胖,身体倍儿棒! image 回顾刚刚过去的2018,还有哪些新闻在你心底留有印象? image 怎奈年纪增长,记忆减退,逝去的爆炸新闻也逐渐褪色变得索然无味,毕竟一直以 ...
- 批量爬取豆瓣短评并批量生成词云
批量爬取豆瓣短评并批量制作为词云 我分为两步实现获取短评和制作词云 1.批量爬取豆瓣短评 from bs4 import BeautifulSoup import requests import th ...
- 爬取豆瓣电影短评并使用词云简单分析top50
先使用进程池爬取豆瓣电影短评 import requests import re import random import time import pandas as pd from pymongo ...
- python爬取QQ空间说说并生成词云
以下是生成的词云图 我的环境:Mac,Anaconda,Python2.7,以及各种用到的Python库 先来说下Anaconda Anaconda 是一个可用于科学计算的 Python 发行版,支 ...
- python电影评论的情感分析流浪地球_python爬取豆瓣流浪地球影评,生成词云
代码很简单,一看就懂. (没有模拟点击,所以都是未展开的) 地址: https://movie.douban.com/subject/26266893/reviews?rating=&star ...
- python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...
def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...
- 看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云
简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧.通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦! 很多人学习python,不知道从何学起. 很多人学习python,掌 ...
- 用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)
爬虫入门:python爬取豆瓣影评及影片信息:影片评分.评论时间.用户ID.评论内容 思路分析 元素定位 完整代码 豆瓣网作为比较官方的电影评价网站,有很多对新上映影片的评价,不多说,直接进入正题. ...
最新文章
- Kubernetes之路 2 - 利用LXCFS提升容器资源可见性
- pycharm如何执行高级撤销操作回到历史
- IntelliJ IDEA 快捷键快速实用篇
- js实现表格无缝滚动效果
- vfp语言第 代计算机语言,VFP语言属于第()代计算机语言。A、一B、二C、三D、四...
- git常用命名行总结
- react table里跳转页面_如何在react中实现一个table切换?
- 动手实现深度学习pytroch版
- H3C 单区域OSPF配置示例二
- 部署到gcp_GCP 网络系统Andromeda --- 概述篇
- html输入框2位小数,input输入框数字限制(2位小数,含0的正整数)
- 设置开机不自动进入锁屏状态
- 思科6509系统升级及单引擎升级为双引擎
- 【优化算法】烟花优化算法(FWA)【含Matlab源码 1079期】
- 怎么还原打开方式为计算机程序,W10电脑系统如何还原打开方式
- [转]美国大杏仁并不是杏仁,而是扁桃仁
- 根据生日自动计算年龄
- idea remote debug
- 反向跟单——羊群效应
- java开学考试感想及代码
热门文章
- 【Python案例】基于Pygame黑白棋游戏(附源码)
- M1卡 不能使用KeyB进行读写的问题
- 毕业设计--2020.02.18 奇耘4.2寸墨水屏的程序设计思路分享
- 多伦多计算机科学排名,Times公布的计算机和工程专业排名,多伦多大学占两大榜首,最抢眼!...
- 来人!把朕的线性代数呈上来!
- R柱状图,叠图(排序)
- 【历史上的今天】6 月 15 日:第一个手机病毒;AI 巨匠司马贺诞生;Chromebook 发布
- Vue.js 框架源码与进阶 - Vue.js 源码剖析 - 响应式原理
- ubuntu18.04交叉编译移植OpenCV4.70和QT5.12.12至ARM64位平台LKD3588(开发板为ubuntu22.04系统)(三)
- NVT | NVT 67X IQ移植