大家好,我是阿辰

五一假期的的时候和家人看了张艺谋导演《悬崖之上》,觉得还不错。并且在五一档的电影中,要说最为好看的可谓是张艺谋导演《悬崖之上》了,在五一档电影中评分排名第一。

虽然总票房还差一点,但是我觉得总票房升上去只是时间问题,毕竟拍片场次那么高。

本文通过爬取《悬崖之上》豆瓣短评,进行数据可视化分析,在后台回复【悬崖】即可获得全部代码。

01

数据采集

在之前的文章我们已经对爬虫这方面讲解了很多,数据采集有过详细的介绍,有不懂的小伙伴可以后台回复:入群,我们一起交流。这里我们直接展示爬虫核心代码:

for page in range(80):try:params = (('start', str(page * 20)),('limit', '20'),('status', 'P'),('sort', 'new_score'),('comments_only', '1'),('ck', 'qN8_'),)r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)yonghumingchengs = re.findall('<a title="(.*?)href.*?">', r.json()['html'], re.S)youyongshus = re.findall('<span class="votes vote-count">(.*?)</span>', r.json()['html'], re.S)pinglunshijians = re.findall('<span class="comment-time " title="(.*?)">', r.json()['html'], re.S)pingluns = re.findall('<span class="short">(.*?)</span>', r.json()['html'], re.S)for i in range(20):a = a + 1sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")except:wb.save("全部.xlsx")print(f"共爬取{page}页数据,存入{a}条数据....")~~~

02

数据清洗

01

合并Excel

因为是分全部、好评、一般、差评四个部分来对影评进行爬取的,所以我们要对这四个影评文件夹进行合并。代码如下:

for i in files:wb = openpyxl.load_workbook(i)sheet = wb['豆瓣评论']for i in range(2,502):A_cell = sheet[f'A{i}']B_cell = sheet[f'B{i}']C_cell = sheet[f'C{i}']D_cell = sheet[f'D{i}']E_cell = sheet[f'E{i}']a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]sheet_1.append(a)~~~

02

导入景点数据

用pandas读取合并后的影评数据并预览。

df = pd.read_excel('总.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
print(df.head())

02

删除重复数据

df.drop_duplicates()

03

查看数据类型

查看字段类型和缺失值情况,符合分析需要,无需另做处理。

df.info()

03

数据可视化

01

各类评论占比

这部电影的短评数有7w+,好评竟能占到快80%,果然张艺谋导演的剧都是好剧~,建议大家抓住五一的小尾巴,去刷一下这个剧。

02

主演提及次数

这部影片一共有五个主演,没想到男一张译和女一秦海璐竟然不是被提及次数最多的,反而是刘浩存被提及次数最多,那让我们来看看大家在影评中都是怎么评价她的。

从词云图中看出,作为新晋的谋女郎,刘浩存确实实力很强,演技很好,同时影片中的角色也很好,可能是这样才导致它的被提及次数成为第一吧。

03

各类星级占比

从图中,我们可以明显的看出,打4星的观众最多,占了54%,其次是3星和5星,分别占26%和17%。这样看来,观众还是非常肯定这部影片的。

04

评论发表时间分布

从图中,我们可以看出,大部分影评发表时间在晚上和凌晨,白天发表影评的数量很少,影院可以适当增加晚上和凌晨的场次。

04

小结

1. 本文仅供学习研究使用,提供的评论仅供参考。

2. 本人对影视的了解有限,言论粗糙,还请勿怪

如果大家对本文代码源码感兴趣,公众号后台回复:悬崖,获取完整代码!

推荐阅读

粉丝让我爬取热搜话题,结果做成了实时热搜『跑马灯』可视化

有读者让我爬逼乎,是我大意了...

用Python分析了7w+《悬崖之上》影评,看看观众都是怎么说?相关推荐

  1. Python分析《羞羞的铁拳》电影观众评论

    專 欄 ❈ 伟楠,Python中文社区专栏作者,数据分析师,知乎专栏:数据故事会. https://www.zhihu.com/people/hao-wei-nan ❈ 前段时间上映的<羞羞的铁 ...

  2. Python分析热门话题“不生孩子的人后来都怎么了”,看看丁克家庭最后都怎么样了...

    随着三胎政策的开放,人们对于生娃的讨论也逐渐热烈了起来,经常能够在各大社交媒体当中看到相关的话题,而随着时间慢慢地流逝,中国的首批"丁克家庭"已步入晚年,而相关的话题"那 ...

  3. Python 爬影评,《悬崖之上》好看在哪里?

    来源 | 志斌的python笔记 头图 | 下载于视觉中国 五月过半,观众对五一档上映电影的评价也逐渐沉淀下来,要说观影体验和口碑,当属张艺谋导演的<悬崖之上>了.<悬崖之上> ...

  4. Python分析离散心率信号(下)

    Python分析离散心率信号(下) 如何使用动态阈值,信号过滤和离群值检测来改善峰值检测. 一些理论和背景 到目前为止,一直在研究如何分析心率信号并从中提取最广泛使用的时域和频域度量.但是,使用的信号 ...

  5. 用Python分析《工作细胞》的一万多条评论后,非漫迷也要入番了

    作者 | 量化小白一枚,上财研究生在读,专注于数据分析与量化投资 来源 | 量化小白上分记(公众号 id:quanthzp) 责编 | Jane 人工智能的现状及今后发展趋势如何?  https:// ...

  6. 基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术

    龙源期刊网 http://www.qikan.com.cn 基于 Python 聚焦型网络爬虫的影评获取技 术 作者:郭向向 郑嘉慧 苗学芹 来源:<时代金融> 2019 年第 11 期 ...

  7. python词频统计之红楼梦_用 Python 分析《红楼梦》,后四十回是曹雪芹所写

    用 Python 分析<红楼梦>,后四十回是曹雪芹所写 2020年11月04日 16:03:11    作者:九九文章网 处理后的效果是这个样子: #甄士隐梦幻识通灵#贾雨村风尘怀闺秀#此 ...

  8. 用python分析小说_用Python分析《斗破苍穹》

    原标题:用Python分析<斗破苍穹> 来自:量化小白上分记(微信号:quanthzp) 近期根据小说<斗破苍穹>改编的同名电视剧正在热映,本文对<斗破苍穹>进行文 ...

  9. 用 Python 分析《斗破苍穹》,分析其究竟是烂片无疑还是沧海遗珠?

    作者 | 量化小白H 责编 | 郭芮 近期根据小说<斗破苍穹>改编的同名电视剧正在热映,本文对<斗破苍穹>进行文本分析,分为两部分.首先爬取豆瓣影评进行简单分析,随后对于原创小 ...

最新文章

  1. oracle 11g ocfs,Oracle 将不再提供ASMlib和OCFS2软件和支持给红帽 RedHat 6的新发行版
  2. 网站优化必知的五大发文注意事项
  3. 【C 语言】字符串模型 ( 字符串翻转模型 | 借助 递归函数操作 逆序字符串操作 | 引入线程安全概念 )
  4. 圈子 | 金融圈小伙伴讲述1929大崩盘那些事儿
  5. Webpack基础之加载器
  6. java的mybatis批量更新_mybatis批量更新的问题
  7. Oracle 表备份还原
  8. Web Service随笔
  9. 【已解决】Could not get lock /var/lib/dpkg/lock-frontend
  10. iOS UITextField设置起始字符开始位置
  11. linux命令从哪里敲,Linux 笔记本基于“敲打”的命令
  12. 2018美国大学计算机科学,美国大学计算机2018最新排名
  13. Windows环境下不用第三方程序给新硬盘提前预装Windows系统
  14. Science Advances:恐惧学习中内侧前额叶和杏仁核theta振荡同步活动
  15. 《让你受益一生的59个好习惯》感悟
  16. 通过智能一体化管理系统自定义表单和自定义字段设计
  17. 从财报看爱奇艺增长想象 长视频巨头要说“10分钟”新故事
  18. java crach 日志解析
  19. 3维线程格 gpu_GPU的线程模型和内存模型
  20. Linux系统下adb驱动安装步骤 及 问题总结

热门文章

  1. Prometheus企业级监控——理论入门
  2. 计算机函数LEN的意思,python的len函数什么意思
  3. 怎么做新闻软文推广?故事性新闻稿写作技巧_云媒易
  4. 社保及公积金转外省流程
  5. CSS制作一个花式标题
  6. Android随机点名器,Excel基础知识-详解随机点名器
  7. entity、bo、vo、po、dto、pojo如何理解及相互转化
  8. Linux下WebLogic12安装
  9. python基础训练—元组
  10. android 7zip,7zip手机版