python爬取豆瓣评论，并制作成词云

一、爬取豆瓣热评

该程序进行爬取豆瓣热评，将爬取的评论(json文件)保存到与该python文件同一级目录下
注意需要下载这几个库:requests、lxml、json、time

import requests
from lxml import etree
import json
import time
class Spider(object):def __init__(self):#seif.ure='https://movie.douban.com/subject/23885074/reviews?start=0'self.headers={'User-Agent':'Mozilla/5.0(Windows NT6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/75.0.3700.100Safari/537.36'}def get_data(self,url):response = requests.get(url,headers=self.headers).content.decode('utf-8')page=etree.HTML(response)#xpath 对象#获取所有数据节点node_list = page.xpath('//div[@class="review-list  "]/div')for node in node_list:#作者author = node.xpath('.//header[@class="main-hd"]//a[2]/text()')[0]#评论text = node.xpath('string(.//div[@class="main-bd"]//div[@class="short-content"])')items={'author':author,'text':text.strip()}#持久化存储with open('yewen.json','a',encoding='utf-8') as f:f.write(json.dumps(items,ensure_ascii=False)+'\n')def run(self):for i in range(1,47):url='https://movie.douban.com/subject/26885074/reviews?start{}'.format(i*20)print('正在爬取第{}页'.format(i))self.get_data(url)time.sleep(3)
if __name__=='__main__':s=Spider()s.run()

二、制作词云

该程序将json中的数据进行处理，提取重要信息，并用wordcloud库制作词云图片，同样保存到与该python文件同一级目录下
注意需要下载这几个库:jieba、wordcloud、json

import jieba
from wordcloud import WordCloud
import json
f= open("yewen.json", "r", encoding="utf-8")
data_list= f.readlines()
str =''
for data in data_list:text= json.loads(data)['text']str +=text
#替换无关紧要的词语
result_str = str.replace('展开', '').replace('这篇','').replace('影评','').replace('电影','').replace('这部', '').replace('可能', '').replace('剧情','')
cut_text = jieba.lcut(result_str)
result = " ".join(cut_text)
wc = WordCloud(font_path='simhei.ttf',background_color="white",max_words=600,width=1000,height=1000,min_font_size=20,max_font_size=100,)#mast=plt.imreda('snake.jpg')#背景图片
wc.generate(result)#转化为词云的操作
wc.to_file("text.jpg")#保存
f.close()

python爬取豆瓣评论，并制作成词云相关推荐

用Python爬取B站弹幕并做成词云
用Python爬取B站弹幕并做成词云一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...
python 东哥 with open_向娱乐圈看齐，Python爬取微博评论并制作酷炫的词云！
2019年伊始,祝愿各位多吃不胖,身体倍儿棒! image 回顾刚刚过去的2018,还有哪些新闻在你心底留有印象? image 怎奈年纪增长,记忆减退,逝去的爆炸新闻也逐渐褪色变得索然无味,毕竟一直以 ...
批量爬取豆瓣短评并批量生成词云
批量爬取豆瓣短评并批量制作为词云我分为两步实现获取短评和制作词云 1.批量爬取豆瓣短评 from bs4 import BeautifulSoup import requests import th ...
爬取豆瓣电影短评并使用词云简单分析top50
先使用进程池爬取豆瓣电影短评 import requests import re import random import time import pandas as pd from pymongo ...
python爬取QQ空间说说并生成词云
以下是生成的词云图我的环境:Mac,Anaconda,Python2.7,以及各种用到的Python库先来说下Anaconda Anaconda 是一个可用于科学计算的 Python 发行版,支 ...
python电影评论的情感分析流浪地球_python爬取豆瓣流浪地球影评，生成词云
代码很简单,一看就懂. (没有模拟点击,所以都是未展开的) 地址: https://movie.douban.com/subject/26266893/reviews?rating=&star ...
python爬取豆瓣电影评论_python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法...
def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...
看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云
简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧.通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦! 很多人学习python,不知道从何学起. 很多人学习python,掌 ...
用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)
爬虫入门:python爬取豆瓣影评及影片信息:影片评分.评论时间.用户ID.评论内容思路分析元素定位完整代码豆瓣网作为比较官方的电影评价网站,有很多对新上映影片的评价,不多说,直接进入正题. ...

python爬取豆瓣评论，并制作成词云

一、爬取豆瓣热评

二、制作词云

python爬取豆瓣评论，并制作成词云相关推荐

最新文章

热门文章