⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】 ⚡

  • 一、前言
  • 二、环境准备
  • 三、具体实现
    • 1.短评获取并保存
    • 2.词云制作
    • 3 成果
  • 四、最后

⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】
⚡)


完成目标:
  使用爬虫对电视剧《扫黑风暴》的豆瓣评论进行抓取,并对制作词云。


一、前言

  最近一部《扫黑风暴》可谓是掀起来了一波追剧狂潮,讲述了中央扫黑除恶督导组进驻中江省绿藤市,将黑恶势力及保护伞成功抓获的故事。
  全员演技在线,故事悬疑,均根据真实案件改编,惊悚又令人上头!今天我们就通过抓取豆瓣最近的短评,进行词云分析看看观众们对这部电视剧的评价究竟如何?

二、环境准备

编辑器:pycharm

用到的库:requests、lxml、numpy、wordcloud、jieba

三、具体实现

1.短评获取并保存

  打开豆瓣关于此剧的评论,网页采用静态加载,仔细观察url、具有一定规律.

start 代表上一页评论的最后一个的序号
limit 代表一页显示20条评论。

第一页:https://movie.douban.com/subject/35202793/comments?start=0&limit=20&status=P&sort=new_score
第二页:https://movie.douban.com/subject/35202793/comments?start=20&limit=20&status=P&sort=new_score
def get_remark():headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.78"}fp = open("short.txt", "w", encoding="utf-8") # 将短评保存到txt文件中for i in range(11):# 构建每页urlurl = f'https://movie.douban.com/subject/35202793/comments?start={i * 20}&limit=20&status=P&sort=new_score'# print(url) 用于测试html = requests.get(url=url, headers=headers).text# 使用lxml对页面进行短评提取tree = etree.HTML(html)short_list = tree.xpath('//p[@class=" comment-content"]//span/text()')# 将评论写入文件,一行一个for short in short_list:fp.write(short + "\n")

  部分评论如下:

2.词云制作

  首先准备好停用词表,过于掉虚词

def stopwordslist():stopwords = [line.strip() for line in open('Chinesestopword.txt', encoding='UTF-8').readlines()]return stopwords

  进行词云制做

def word_cloud():text = open("short.txt", "r", encoding='utf-8').read()sep_list = jieba.lcut(text) # jieba分词stopwords = stopwordslist()outstr = ''for word in sep_list:if word not in stopwords:if word != '\t':outstr += wordoutstr += " "wcd = wordcloud.WordCloud(font_path="simkai.ttf"# 设置字体                              , background_color="white", colormap="brg" # 设置字体颜色, repeat=True # 词语重复, scale=16 # 得到高清图)wcd.generate(outstr) # 生成词云wcd.to_file("short.png") # 保存到本地

3 成果

四、最后

  打从《扫黑风暴》开播,一种说法早已成潮:孙红雷,演技差评。一看评论,多半是质疑他在戏中的表演过于浮夸,动不动憨笑令人出戏,结论也明摆着:“孙式综艺套路笑,瞬间让李成阳人设崩塌。” 那么在你看来,孙红雷在这部剧演技到底如何?

⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】 ⚡相关推荐

  1. bilibili怎么设置弹幕数量_python爬虫:bilibili弹幕爬取+词云生成

    如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...

  2. python爬取bilibili弹幕_python爬虫:bilibili弹幕爬取+词云生成

    如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...

  3. Python哔哩哔哩弹幕爬取+词云生成

    心血来潮,研究下词云,先上图,最终效果 代码 import numpy as np import requests from bs4 import BeautifulSoup from wordclo ...

  4. 《恶魔人crybaby》豆瓣短评爬取

    作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业 选择一个热点或者你感兴趣的主题. 选择爬取的对象 ...

  5. 详解使用Python爬取豆瓣短评并绘制词云

    使用Python爬取豆瓣短评并绘制词云 成果如下(比较丑,凑合看) 1.分析网页 打开想要爬取的电影,比如<找到你>,其短评如下: 查看源代码 发现短评存放在<span>标签里 ...

  6. 基于Scrapy框架爬取豆瓣《复联4》影评,并生成词云

    基于Scrapy框架爬取豆瓣<复联4>影评,并生成词云 1. 介绍及开发环境 2. 爬虫实现 2.1 新建项目 2.2 构造请求 2.3 提取信息 2.4 数据存储 2.4 运行结果 3. ...

  7. Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存

    本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...

  8. 爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件

    一:爬取词库,使用jieba分词库,自定义dict.txt文件 import jiebafrom urllib.request import urlopen from bs4 import Beaut ...

  9. 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类

    基础爬虫架构 基础爬虫框架主要包括五大模块:爬虫调度器.URL管理器.网页下载器.网页解析器.数据存储器. 爬虫调度器:启动.执行.停止爬虫,统筹其他模块的协调工作. URL管理器:管理已爬取的URL ...

最新文章

  1. javascript的Math对象和全局函数
  2. buildroot mysql
  3. python-map函数
  4. 12-CoreData操作大量数据时的注意细节
  5. android百分比扩展枯,Android 增强版百分比布局库 为了适配而扩展
  6. 开源免费,zabbix服务器监控全面实现
  7. c语言获取按键,c语言获得键盘的按键
  8. 数据结构 树和二叉树
  9. mysql数据库访问问题吗_#MySQL数据库无法远程访问的问题
  10. 谷歌发布 XS-Leaks 漏洞知识库
  11. Chain of Responsibility(责任链)
  12. 逻辑卷、物理卷、卷组
  13. 网络空间搜索引擎ZoomEye
  14. STM32F103和STM32F107区别
  15. 特种期货开户交易权限开通认定标准
  16. 房产中介管理系统,房产中介预约看房系统,看房预约系统毕设作品
  17. 计算机计算累计公式,““请问Excel表格求的合计数为什么和用计算器累加出的合计数不一致...
  18. 中望3d快捷键命令大全_室内设计3D快捷键 CAD命令
  19. 财路网每日原创推送:区块链的“三围”了解
  20. a洋发卡网sadnt模板美化

热门文章

  1. Spring之IOC自动装配
  2. datasets数据集
  3. 解决win7无法打开chm格式文件的问题
  4. 采用面向对象的方法来实现留言板的添加和删除功能
  5. 分享一个网易新闻的api接口
  6. 采用busybox的嵌入式Linux根文件系统的的制作方法
  7. 压缩pdf大小的方法?怎样压缩pdf大小?pdf文档怎么压缩?pdf文件太大怎么压缩?pdf文件太大怎么压缩成小内存?如何降低pdf文件大小?怎么把pdf文件压缩到指定大小?压缩pdf的简单方法
  8. SVN历史版本比较报错:Bad URL passed to RA layer
  9. 360桌面助手待办事项同步/迁移的方法(从一台电脑迁移到另外一台电脑上)
  10. Matlab中属性 get 方法的使用