爬取《你好，李焕英》影评，并生成词云图

自学了python爬虫，最近在实践，就拿《你好，李焕英》的豆瓣影评来试试手吧！

思路：

首先是爬取豆瓣影评的短评，保存下来
豆瓣影评每页显示20条评论，我爬取了前面50页的评论，先浏览找到翻页规律，批量生成网页url链接，然后解析每个页面，用的BeautifulSoup，提取评论文字，保存为txt文件
然后将评论生成词云
代码里注释的很清晰了，就不赘述了

上代码

爬取评论的代码

#引用time库、random库、requests库、BeautifulSoup4
import timeimport randomimport requestsfrom bs4 import BeautifulSoupdef get_info(url):dict = {}UA = ["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14","Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11','Opera/9.25 (Windows NT 5.1; U; en)','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12','Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7","Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "]user_agent = random.choice(UA)#请求页面r = requests.get(url,headers={'User-Agent':user_agent})#创建BeautifulSoup对象soup = BeautifulSoup(r.text,'lxml')#找到所有的class属性为comment-item的标签comment_items = soup.select('.comment-item')#遍历所有符合要求的标签for comment_item in comment_items:#找到包含短评内容的标签shorts = comment_item.select('.short')#找到包含时间的标签times = comment_item.select('.comment-time')#遍历找到的标签for short,time in zip(shorts,times):#提取文字short_text = short.get_text()#提取时间time_num = time['title']#把文字保存下来#使用前先创建一个txt文件with open('你好李焕英.txt','a+',encoding='utf-8') as f:f.write(short_text + '\n')print(short_text,time_num)dict = {'short':short_text,'time':time_num}return dictif __name__ == '__main__':#生成大量的url链接urls = ['https://movie.douban.com/subject/34841067/comments?start={}&limit=20&status=P&sort=new_score'.format(str(i)) for i in range(0,1000,20)]for url in urls:get_info(url)time.sleep(1)

生成词云的代码

import jieba
from wordcloud import wordcloud,WordCloud,ImageColorGenerator
from matplotlib import colors
from imageio import imread#打开模板图片，赋值给mask
mask = imread("火.png")#打开文本文件，只读模式，utf8编码
f = open("你好李焕英.txt","r",encoding="utf-8")
t = f.read()
#提取模板颜色
image_colors = ImageColorGenerator(mask)
#关闭文件
f.close()#文本分词，赋值给列表
ls = jieba.lcut(t)
#以空格分隔列表里的每个元素
txt = " ".join(ls)#定义词云字体，形状，界面高、宽，背景色，最大文字数量，最大字号，字号递增为1，最大字号为6
w = wordcloud.WordCloud(font_path = "msyh.ttc",mask=mask,\width = 1000,height = 700,background_color = "white",\max_words = 1000,min_font_size=3,font_step=3,\max_font_size=50,)w.generate(txt)#修改词云字体颜色为提取的模板颜色
w_color = w.recolor(color_func=image_colors)
#导出为png文件
w.to_file("你好，李焕英词云.png")

最后上我的成果吧！
通过调整词的个数、大小等参数可以达到不同的效果，所以我上了几张效果图，哈哈

谢谢大家的阅读，我们下次见了

爬取《你好，李焕英》影评，并生成词云图相关推荐

Python爬取你好李焕英豆瓣短评生成词云
爬取过程: 你好,李焕英短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&st ...
Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图
词云图: 爬取过程: 你好,李焕英短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&a ...
python爬取《三国演义》小说统计词频生成词云图
python爬取<三国演义>小说&统计词频&生成词云图注意点: 爬取小说正文时用的正则表达式涉及到多行匹配.需要开启多行模式(?s) book_content_re = ...
Python——爬取某瓣电影评论信息并生成词云图
Python爬取《你好李焕英》猫眼实时票房
Python爬取<你好李焕英>豆瓣短评并基于SnowNLP做情感分析 Python爬取你好李焕英豆瓣短评生成词云 Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词 ...
Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析
爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: ...
《你好李焕英》票房超《神奇女侠》，贾玲成全球票房最高女导演
4月6日消息,据猫眼专业版数据显示,4月6日10时,<你好,李焕英>累计票房达到53.95亿元,超过<神奇女侠>(8.22亿美元),贾玲成为全球票房最高女导演. 此前,< ...
你好李焕英票房54亿，出品人能分多少，网友：投资水门桥能赚多少
2021年春节档,你好李焕英在大片云集的电影市场脱颖而出,然而这部由贾玲导演的小成本电影,竟然逆袭成为了票房第一,实力赶超战狼2,哪吒之魔童降世这个火遍全国的电影,竟然甘拜下风!大多数网友不淡定了,这 ...
《你好李焕英》票房反超《唐探3》成中国影史票房第五
2月22日消息,上映第10天,<你好,李焕英>票房逆袭<唐人街探案3>,同时<你好,李焕英>也成为中国影史票房第五名.截至发稿,<你好,李焕英>累计票房 ...
北京文化：目前《你好李焕英》贡献营收约6000万至6500万元
2月19日消息,北京文化发布公告称,公司参与制作.发行的电影<你好,李焕英>于2021年2月12日起在中国大陆地区公映.根据国家电影专资办数据,截至2021年2月17日24时,影片在中国大 ...

爬取《你好，李焕英》影评，并生成词云图

思路：

上代码

爬取《你好，李焕英》影评，并生成词云图相关推荐

最新文章

热门文章