来源 | 志斌的python笔记

头图 | 下载于视觉中国

五月过半,观众对五一档上映电影的评价也逐渐沉淀下来,要说观影体验和口碑,当属张艺谋导演的《悬崖之上》了。《悬崖之上》作为一部谍战主题的电影,引人入胜的剧情加上主演们全员在线的演技,顺理成章地在同时期上映的电影种获得了评分排名第一。

本文通过Python爬取豆瓣上对于《悬崖之上》的短评,然后进行数据可视化分析,看看七万条短评里,网友都聊了些什么。

数据采集

在之前的文章我们已经对豆瓣短评的数据采集有过详细的介绍,有不懂的小伙伴可以看看这篇文章我用python分析《你好,李焕英》豆瓣30万+评论,终于找到了它大卖的原因。这里我们直接展示爬虫核心代码:

for page in range(80):try:params = (('start', str(page * 20)),('limit', '20'),('status', 'P'),('sort', 'new_score'),('comments_only', '1'),('ck', 'qN8_'),)r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)yonghumingchengs = re.findall('<a title="(.*?)href.*?">', r.json()['html'], re.S)youyongshus = re.findall('<span class="votes vote-count">(.*?)</span>', r.json()['html'], re.S)pinglunshijians = re.findall('<span class="comment-time " title="(.*?)">', r.json()['html'], re.S)pingluns = re.findall('<span class="short">(.*?)</span>', r.json()['html'], re.S)for i in range(20):a = a + 1sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")except:wb.save("全部.xlsx")print(f"共爬取{page}页数据,存入{a}条数据....")~~~

数据清洗

1.合并Excel

因为是分全部、好评、一般、差评四个部分来对影评进行爬取的,所以我们要对这四个影评文件夹进行合并。代码如下:

for i in files:wb = openpyxl.load_workbook(i)sheet = wb['豆瓣评论']for i in range(2,502):A_cell = sheet[f'A{i}']B_cell = sheet[f'B{i}']C_cell = sheet[f'C{i}']D_cell = sheet[f'D{i}']E_cell = sheet[f'E{i}']a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]sheet_1.append(a)~~~

2.导入评论数据

用pandas读取合并后的影评数据并预览。

df = pd.read_excel('总.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
print(df.head())

3.删除重复数据

df.drop_duplicates()

4.查看数据类型

查看字段类型和缺失值情况,符合分析需要,无需另做处理。

df.info()

数据可视化

1.各类评论占比

这部电影的短评数有7w+,好评竟能占到快80%,果然张艺谋导演的剧都是好剧~,建议大家抓住五一的小尾巴,去刷一下这个剧。

2.主演提及次数

这部影片一共有五个主演,没想到男一张译和女一秦海璐竟然不是被提及次数最多的,反而是刘浩存被提及次数最多,那让我们来看看大家在影评中都是怎么评价她的。

从词云图中看出,作为新晋的谋女郎,刘浩存确实实力很强,演技很好,同时影片中的角色也很好,可能是这样才导致它的被提及次数成为第一吧。

3.各类星级占比

从图中,我们可以明显的看出,打4星的观众最多,占了54%,其次是3星和5星,分别占26%和17%。这样看来,观众还是非常肯定这部影片的。

4.评论发表时间分布

从图中,我们可以看出,大部分影评发表时间在晚上和凌晨,白天发表影评的数量很少,影院可以适当增加晚上和凌晨的场次。

更多精彩推荐  美国燃油“动脉”被黑客切断,网络安全走向哪里?专访山石网科热文 | 卷积神经网络入门案例,轻松实现花朵分类
IBM 能靠 2nm 芯片翻身吗?用 Python 实现隐身,我可以 | 文末福利AI 3D 传感器市场竞争白热化,中国掌握自主可控核心技术时不我待!小心!你家的 IoT 设备可能已成为僵尸网络“肉鸡”
点分享点收藏点点赞点在看

Python 爬影评,《悬崖之上》好看在哪里?相关推荐

  1. Python爬猫眼电影影评及可视化 Robin NJU

    1.Fiddler4抓包分析影评数据接口 1.1 基本设置 ①电脑端:下载Fiddler4 设置:tools-options-connections-allow remote computers to ...

  2. 用Python分析了7w+《悬崖之上》影评,看看观众都是怎么说?

    大家好,我是阿辰 五一假期的的时候和家人看了张艺谋导演<悬崖之上>,觉得还不错.并且在五一档的电影中,要说最为好看的可谓是张艺谋导演<悬崖之上>了,在五一档电影中评分排名第一. ...

  3. python豆瓣影评_教你用python登陆豆瓣并爬取影评

    教你用python登陆豆瓣并爬取影评 一起来 日常学python 这是我的第二篇原创文章 在上篇文章爬取豆瓣电影top250后,想想既然爬了电影,干脆就连影评也爬了,这样可以看看人们评价的电影,再加上 ...

  4. python爬猫眼电影影评,Python系列爬虫之爬取并简单分析猫眼电影影评

    前言 今天给大家介绍利用Python爬取并简单分析猫眼电影影评.让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: pyecharts模块: jieba模 ...

  5. Python爬虫---影评的爬取

    Python爬虫-影评的爬取 介绍:爬虫练手,使用Requests库进行豆瓣影评的爬虫,做成词云图,写文章主要做一些问题解决的记录. 运行环境:python 3.8, Pycharm 关于在豆瓣爬取影 ...

  6. python爬取豆瓣影评理论依据_我用Python爬取了豆瓣的影评

    使用Python爬取豆瓣的影评,比爬取网易云简单,因为不需要设置特定的headers,关于网易云说几句,很难爬取,对请求头有着严格的要求,前几年那会还好些. 爬取结果分为:用户名,评价的星级,评论的内 ...

  7. 用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)

    爬虫入门:python爬取豆瓣影评及影片信息:影片评分.评论时间.用户ID.评论内容 思路分析 元素定位 完整代码 豆瓣网作为比较官方的电影评价网站,有很多对新上映影片的评价,不多说,直接进入正题. ...

  8. Python爬取豆瓣网影评展示

    Python爬取豆瓣网影评展示 需要的库文件 requests beautifulsoup wordcloud jieba matplotlib 本文思想 1.访问指定的网页 #获取指定url的内容 ...

  9. 完全小白篇-用python爬取豆瓣电影影评

    完全小白篇-用python爬取豆瓣影评 打开豆瓣电影 随机电影的所有影评网页 跳转逻辑 分析影评内容获取方法 逐一正则提取影评 针对标签格式过于多样的处理 针对提出请求的频率的限制 存储方式(本次sq ...

最新文章

  1. 抢程序员饭碗?自动写代码的Deep TabNine真如此神奇?
  2. 独家 | 由第一原理导出卷积
  3. 独家 | 攀登数据科学家和数据工程师之间的隔墙
  4. missing template arguments before异常解决
  5. Maven--传递性依赖和依赖范围
  6. 批处理命令set截取字符详解
  7. NiftyNet开源平台使用
  8. 大数据量生成工具源代码(Delphi)
  9. c语言画谢宾斯基三角形
  10. Mac下VirtualBox虚拟机Win7与主机共享文件夹
  11. php为什么要提前定义变量
  12. 生成注释_java基础- Java编程规范与注释
  13. Codeforces 527C Glass Carving
  14. 4-算法 与7无关的数最近的提交
  15. python 局域网服务器_Python一秒搭建ftp服务器,帮助你在局域网共享文件
  16. 80c51流水灯汇编语言,单片机AT89C51可控流水灯课程设计报告(汇编语言).docx
  17. python c++ socket 通信一个示例
  18. 回归标准差和残差平方和的关系_一文详解经典回归分析
  19. lisp pline 加点_在cad中如何创建lisp程序?以及大神们所说的lisp解决重复性劳动问题是怎么回事?...
  20. 南航考研计算机学院学硕分数,2019南航计算机学硕经验贴

热门文章

  1. 程序员简历项目经历怎么写 ?三条原则不可忽视 【项目案例分享】
  2. ubuntu18.04安装中中文输入法
  3. 试炼四:switch选择结构
  4. Heiro试用失败记
  5. python-matplotlib制作图表与中文正常显示
  6. 【Nav2中文网】三、导航相关概念
  7. SoapUI导出响应文件
  8. 如何在Mac电脑中卸载软件?Mac电脑卸载软件方法汇总
  9. 详细浮点型数据的存储讲解
  10. CUBEMX+FreeRTOS使用ArmComplier6(AC6)编译器的设置方法