⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】 ⚡
⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】 ⚡
- 一、前言
- 二、环境准备
- 三、具体实现
- 1.短评获取并保存
- 2.词云制作
- 3 成果
- 四、最后
⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】
⚡)
完成目标:
使用爬虫对电视剧《扫黑风暴》的豆瓣评论进行抓取,并对制作词云。
一、前言
最近一部《扫黑风暴》可谓是掀起来了一波追剧狂潮,讲述了中央扫黑除恶督导组进驻中江省绿藤市,将黑恶势力及保护伞成功抓获的故事。
全员演技在线,故事悬疑,均根据真实案件改编,惊悚又令人上头!今天我们就通过抓取豆瓣最近的短评,进行词云分析看看观众们对这部电视剧的评价究竟如何?
二、环境准备
编辑器:pycharm
用到的库:requests、lxml、numpy、wordcloud、jieba
三、具体实现
1.短评获取并保存
打开豆瓣关于此剧的评论,网页采用静态加载,仔细观察url、具有一定规律.
start 代表上一页评论的最后一个的序号
limit 代表一页显示20条评论。
第一页:https://movie.douban.com/subject/35202793/comments?start=0&limit=20&status=P&sort=new_score
第二页:https://movie.douban.com/subject/35202793/comments?start=20&limit=20&status=P&sort=new_score
def get_remark():headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.78"}fp = open("short.txt", "w", encoding="utf-8") # 将短评保存到txt文件中for i in range(11):# 构建每页urlurl = f'https://movie.douban.com/subject/35202793/comments?start={i * 20}&limit=20&status=P&sort=new_score'# print(url) 用于测试html = requests.get(url=url, headers=headers).text# 使用lxml对页面进行短评提取tree = etree.HTML(html)short_list = tree.xpath('//p[@class=" comment-content"]//span/text()')# 将评论写入文件,一行一个for short in short_list:fp.write(short + "\n")
部分评论如下:
2.词云制作
首先准备好停用词表,过于掉虚词
def stopwordslist():stopwords = [line.strip() for line in open('Chinesestopword.txt', encoding='UTF-8').readlines()]return stopwords
进行词云制做
def word_cloud():text = open("short.txt", "r", encoding='utf-8').read()sep_list = jieba.lcut(text) # jieba分词stopwords = stopwordslist()outstr = ''for word in sep_list:if word not in stopwords:if word != '\t':outstr += wordoutstr += " "wcd = wordcloud.WordCloud(font_path="simkai.ttf"# 设置字体 , background_color="white", colormap="brg" # 设置字体颜色, repeat=True # 词语重复, scale=16 # 得到高清图)wcd.generate(outstr) # 生成词云wcd.to_file("short.png") # 保存到本地
3 成果
四、最后
打从《扫黑风暴》开播,一种说法早已成潮:孙红雷,演技差评。一看评论,多半是质疑他在戏中的表演过于浮夸,动不动憨笑令人出戏,结论也明摆着:“孙式综艺套路笑,瞬间让李成阳人设崩塌。” 那么在你看来,孙红雷在这部剧演技到底如何?
⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】 ⚡相关推荐
- bilibili怎么设置弹幕数量_python爬虫:bilibili弹幕爬取+词云生成
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...
- python爬取bilibili弹幕_python爬虫:bilibili弹幕爬取+词云生成
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...
- Python哔哩哔哩弹幕爬取+词云生成
心血来潮,研究下词云,先上图,最终效果 代码 import numpy as np import requests from bs4 import BeautifulSoup from wordclo ...
- 《恶魔人crybaby》豆瓣短评爬取
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业 选择一个热点或者你感兴趣的主题. 选择爬取的对象 ...
- 详解使用Python爬取豆瓣短评并绘制词云
使用Python爬取豆瓣短评并绘制词云 成果如下(比较丑,凑合看) 1.分析网页 打开想要爬取的电影,比如<找到你>,其短评如下: 查看源代码 发现短评存放在<span>标签里 ...
- 基于Scrapy框架爬取豆瓣《复联4》影评,并生成词云
基于Scrapy框架爬取豆瓣<复联4>影评,并生成词云 1. 介绍及开发环境 2. 爬虫实现 2.1 新建项目 2.2 构造请求 2.3 提取信息 2.4 数据存储 2.4 运行结果 3. ...
- Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存
本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...
- 爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件
一:爬取词库,使用jieba分词库,自定义dict.txt文件 import jiebafrom urllib.request import urlopen from bs4 import Beaut ...
- 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类
基础爬虫架构 基础爬虫框架主要包括五大模块:爬虫调度器.URL管理器.网页下载器.网页解析器.数据存储器. 爬虫调度器:启动.执行.停止爬虫,统筹其他模块的协调工作. URL管理器:管理已爬取的URL ...
最新文章
- javascript的Math对象和全局函数
- buildroot mysql
- python-map函数
- 12-CoreData操作大量数据时的注意细节
- android百分比扩展枯,Android 增强版百分比布局库 为了适配而扩展
- 开源免费,zabbix服务器监控全面实现
- c语言获取按键,c语言获得键盘的按键
- 数据结构 树和二叉树
- mysql数据库访问问题吗_#MySQL数据库无法远程访问的问题
- 谷歌发布 XS-Leaks 漏洞知识库
- Chain of Responsibility(责任链)
- 逻辑卷、物理卷、卷组
- 网络空间搜索引擎ZoomEye
- STM32F103和STM32F107区别
- 特种期货开户交易权限开通认定标准
- 房产中介管理系统,房产中介预约看房系统,看房预约系统毕设作品
- 计算机计算累计公式,““请问Excel表格求的合计数为什么和用计算器累加出的合计数不一致...
- 中望3d快捷键命令大全_室内设计3D快捷键 CAD命令
- 财路网每日原创推送:区块链的“三围”了解
- a洋发卡网sadnt模板美化
热门文章
- Spring之IOC自动装配
- datasets数据集
- 解决win7无法打开chm格式文件的问题
- 采用面向对象的方法来实现留言板的添加和删除功能
- 分享一个网易新闻的api接口
- 采用busybox的嵌入式Linux根文件系统的的制作方法
- 压缩pdf大小的方法?怎样压缩pdf大小?pdf文档怎么压缩?pdf文件太大怎么压缩?pdf文件太大怎么压缩成小内存?如何降低pdf文件大小?怎么把pdf文件压缩到指定大小?压缩pdf的简单方法
- SVN历史版本比较报错:Bad URL passed to RA layer
- 360桌面助手待办事项同步/迁移的方法(从一台电脑迁移到另外一台电脑上)
- Matlab中属性 get 方法的使用