自学了python爬虫,最近在实践,就拿《你好,李焕英》的豆瓣影评来试试手吧!

思路:

首先是爬取豆瓣影评的短评,保存下来
豆瓣影评每页显示20条评论,我爬取了前面50页的评论,先浏览找到翻页规律,批量生成网页url链接,然后解析每个页面,用的BeautifulSoup,提取评论文字,保存为txt文件
然后将评论生成词云
代码里注释的很清晰了,就不赘述了

上代码

爬取评论的代码

#引用time库、random库、requests库、BeautifulSoup4
import timeimport randomimport requestsfrom bs4 import BeautifulSoupdef get_info(url):dict = {}UA = ["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14","Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11','Opera/9.25 (Windows NT 5.1; U; en)','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12','Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7","Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "]user_agent = random.choice(UA)#请求页面r = requests.get(url,headers={'User-Agent':user_agent})#创建BeautifulSoup对象soup = BeautifulSoup(r.text,'lxml')#找到所有的class属性为comment-item的标签comment_items = soup.select('.comment-item')#遍历所有符合要求的标签for comment_item in comment_items:#找到包含短评内容的标签shorts = comment_item.select('.short')#找到包含时间的标签times = comment_item.select('.comment-time')#遍历找到的标签for short,time in zip(shorts,times):#提取文字short_text = short.get_text()#提取时间time_num = time['title']#把文字保存下来#使用前先创建一个txt文件with open('你好李焕英.txt','a+',encoding='utf-8') as f:f.write(short_text + '\n')print(short_text,time_num)dict = {'short':short_text,'time':time_num}return dictif __name__ == '__main__':#生成大量的url链接urls = ['https://movie.douban.com/subject/34841067/comments?start={}&limit=20&status=P&sort=new_score'.format(str(i)) for i in range(0,1000,20)]for url in urls:get_info(url)time.sleep(1)

生成词云的代码

import jieba
from wordcloud import wordcloud,WordCloud,ImageColorGenerator
from matplotlib import colors
from imageio import imread#打开模板图片,赋值给mask
mask = imread("火.png")#打开文本文件,只读模式,utf8编码
f = open("你好李焕英.txt","r",encoding="utf-8")
t = f.read()
#提取模板颜色
image_colors = ImageColorGenerator(mask)
#关闭文件
f.close()#文本分词,赋值给列表
ls = jieba.lcut(t)
#以空格分隔列表里的每个元素
txt = " ".join(ls)#定义词云字体,形状,界面高、宽,背景色,最大文字数量,最大字号,字号递增为1,最大字号为6
w = wordcloud.WordCloud(font_path = "msyh.ttc",mask=mask,\width = 1000,height = 700,background_color = "white",\max_words = 1000,min_font_size=3,font_step=3,\max_font_size=50,)w.generate(txt)#修改词云字体颜色为提取的模板颜色
w_color = w.recolor(color_func=image_colors)
#导出为png文件
w.to_file("你好,李焕英词云.png")

最后上我的成果吧!
通过调整词的个数、大小等参数可以达到不同的效果,所以我上了几张效果图,哈哈

谢谢大家的阅读,我们下次见了

爬取《你好,李焕英》影评,并生成词云图相关推荐

  1. Python爬取你好李焕英豆瓣短评生成词云

    爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&st ...

  2. Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图

    词云图: 爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&a ...

  3. python爬取《三国演义》小说统计词频生成词云图

    python爬取<三国演义>小说&统计词频&生成词云图 注意点: 爬取小说正文时用的正则表达式涉及到多行匹配.需要开启多行模式(?s) book_content_re = ...

  4. Python——爬取某瓣电影评论信息并生成词云图

  5. Python爬取《你好李焕英》猫眼实时票房

    Python爬取<你好李焕英>豆瓣短评并基于SnowNLP做情感分析 Python爬取你好李焕英豆瓣短评生成词云 Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词 ...

  6. Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析

    爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: ...

  7. 《你好李焕英》票房超《神奇女侠》,贾玲成全球票房最高女导演

    4月6日消息,据猫眼专业版数据显示,4月6日10时,<你好,李焕英>累计票房达到53.95亿元,超过<神奇女侠>(8.22亿美元),贾玲成为全球票房最高女导演. 此前,< ...

  8. 你好李焕英票房54亿,出品人能分多少,网友:投资水门桥能赚多少

    2021年春节档,你好李焕英在大片云集的电影市场脱颖而出,然而这部由贾玲导演的小成本电影,竟然逆袭成为了票房第一,实力赶超战狼2,哪吒之魔童降世这个火遍全国的电影,竟然甘拜下风!大多数网友不淡定了,这 ...

  9. 《你好李焕英》票房反超《唐探3》 成中国影史票房第五

    2月22日消息,上映第10天,<你好,李焕英>票房逆袭<唐人街探案3>,同时<你好,李焕英>也成为中国影史票房第五名.截至发稿,<你好,李焕英>累计票房 ...

  10. 北京文化:目前《你好李焕英》贡献营收约6000万至6500万元

    2月19日消息,北京文化发布公告称,公司参与制作.发行的电影<你好,李焕英>于2021年2月12日起在中国大陆地区公映.根据国家电影专资办数据,截至2021年2月17日24时,影片在中国大 ...

最新文章

  1. UNet为什么在医学图像分割表现好?
  2. 35岁的程序员正在消失?No,我认识了一个50岁的程序员!
  3. Jmeter之HTTP Request Defaults
  4. 为什么对开发者很重要?
  5. Android 编译系统分析(一)
  6. SAP 电商云 Spartacus UI 的 urlParameter 配置原理
  7. ajax后台怎么取mapp,后台管理实现
  8. 用python将word文档导入数据库_python读取word文档,插入mysql数据库的示例代码
  9. ASP.NET Form Authentication安全漏洞及对策
  10. linux fdisk 权限不够,Linux 文件系统结构、磁盘的管理
  11. MongoDB复制集搭建主服务器模拟切换
  12. OSPF(Open Shortest Path First)开放式最短路径优先协议03
  13. 六石编程学:自动化测试的优点
  14. 最速梯度下降法及matlab实践,最速下降法以及代码实现
  15. JavaScript 开发者的 5 款必备工具
  16. java实现在线预览----poi操作word转html及03、07版本兼容问题
  17. bluefish编辑器的配置
  18. 滴滴出行场景中语音识别模型的自学习平台化实践
  19. 制作openstack离线 yum 源
  20. 数组类型的修改和去重

热门文章

  1. Project的介绍
  2. PowerBuilder篇(2)——如何连接Oracle数据库
  3. 问题解决:使用GitHub时git push需要输入账号和密码Username for... (Use git clone SSH) git remote add 或set-url(推荐)
  4. 基于STM32的智能门禁卡片(开题报告)
  5. NVMe over TCP Write/Read命令下发流程梳理
  6. Java SE 第四十八,九,五十讲 Map深入详解及遍历Map的两种实现手段 Map.Entry详解与作业要求,作业讲解...
  7. 微信H5棋牌游戏APP下载链接被屏蔽的解决办法
  8. 365打卡小程序搭建教程
  9. 支持他们的应用程序突袭Cloudberry狂潮
  10. 阿里云k8s-常用命令(Kubernetes)