你读大学的时候看过「万万没想到」吗!!

你还记得万合天宜吗!!

你还记得王大锤吗!!

没错,他们出电影了 -- 扬名立万!!可好看了,快去看!!(万合天宜给我打钱!)

扬名立万自上线以来,评分一路上涨,目前已经涨到7.6分,这在院线电影中已经是非常难得的成绩了(泰囧才7.5分)。我也专门去影院看了,个人觉得非常不错,但是印象更深的是小姨妈好美!!!!哭的人心都碎了!!

言归正传,我爬取了扬名立万的豆瓣影评,想分析一下大家对这部电影的评分及评价。

感兴趣的朋友后台回复「扬名立万」可以获得全部爬虫和分析代码(你可以拿这套代码去爬和分析其他的电影~


本文结构速览:

1.数据爬取

2.数据分析

    2.1 评分分析

    2.2 城市分析

    2.3 词云图

    2.4 情感分析

3.本文不足


1 数据爬取

豆瓣网从2017年10月开始全面禁止爬取数据。在非登录状态下仅仅可以爬取200条短评,登录状态下仅可以爬取500条数据。白天一分钟最多可爬40次,晚上60次,超过次数就会封IP地址(不要问我怎么知道的

换了个账号,最终成功爬取500条数据,其中包括评论时间、用户名、评分、点赞数和评论文本,并将其保存至csv文件中。

再来看一下数据的基本情况:

居然 连500条数据都不到,而且存在一些缺失值~

由于数据本身较少且后续的分析基本是对每个字段分开分析的,所以这里就不处理缺失值了~

2 数据分析

该部分包括:

  • 影评评分分布

  • 城市信息分布

  • 词云图(正向、负向)

  • 情感分布(snownlp)

2.1 评分分布

数据中评分的枚举值为力荐、推荐、还行、较差、很差,分别对应豆瓣评分的5-1分。

使用pyecharts对其可视化可以发现,电影的评分整体还是比较高的,推荐和力荐占比占到了60%以上,当然也有30%的用户觉得该电影极差~

2.2 评论来源城市分析

在获取数据时,特意抓取了用户城市信息,如果评论页面没有城市信息需要到用户首页获取,这也是为什么很容易被豆瓣封掉的原因~

但是豆瓣用户的常居城市往往是省市合在一起的,比如广东广州、吉林长春,为了更好地分析城市需要先将这类城市信息拆解出来,这里我们只需要城市信息~

最终,清洗出382个城市,使用柱状图对其可视化:

可以发现,北上广三个城市的用户占比极高,这也侧面说明了城市的经济基础决定上层建筑,与其他城市相比,北上广的用户能够较好地满足“生理需求”,在此基础上才能追求更高层次的精神追求。

2.3 词云图

词云图能够直观反映用户讨论讨论的主题和用户的评价内容,这里分别对全部评论、评分最高的评论、评分最低的评论进行词云图绘制~

词云图生成过程:

  • 解析出所有评论内容;

  • jieba分词(记得去除停用词和导入自定义词);

  • 词频统计;

  • 使用pyecharts绘制美丽的词云图;

1.全部评论词云图

从以上词云图中可以发现,“故事”、“导演”、“剧情”、“台词”、“演技”、“万合天宜”等都是观众所讨论的重要话题,其中“惊喜”、“不错”、“喜欢”等词可以看出用户整体的评价是偏正向的。

2.正向评论词云图

此处正向评论定义为「评分」为「力荐」的评论内容~

可以发现,正向的词云图和负向的差别不大,再次证明用户整体评价偏正向~

3.负向评论词云图

此处负向评论定义为「评分」为「很差」的评论内容~

不喜欢这部电影的观众觉得剧情无聊、表演做作、设定低级、编剧退钱!

果然是萝卜白菜,各有所爱~

2.4 情感分析

这里使用snownlp对评论进行评分~

snownlp是一种可以进行中文分词、词性标注、情感分析、文本分类、转换拼音、繁体转简体、提取文本关键词、提取摘要、分割句子、文本相似的自然语言处理算法。

在看此之前,可以先看一下官网,里面有最基础的一些命令的介绍。

官网链接:https://pypi.org/project/snownlp/

使用snownlp对每一句评论进行打分,并将分数可视化如下:

0.5以下为负面情绪,0.5以上为正面情绪。从上图中可以看到好评还是很不错的,所以才有了豆瓣7.5的高分~

3 本文不足

怎么感觉我在写论文?

我花了很多时间在这篇文章上,希望能分析出一些有意思的结论,但是由于技术水平、网页限制等各种原因,本文存在以下不足:

  • 数据不足:因为豆瓣限制只能爬500条数据,最终数据量偏少,可能有些结论存在偏颇~

  • 情感分析粗略:本文使用的snownlp只能进行粗粒度的情感分析,即每个评论给予一个情感值,但是真实评价可能存在「表扬演员」+「批评剧情」+「表扬音乐」等多个情感,这里没有进行细化分析~

针对不足1,希望有大佬可以教教我怎么多爬一些数据;

针对不足2,希望以后有时间可以继续探索~

扬名立万影评爬取与分析相关推荐

  1. python翻页爬豆瓣影评_荐爬虫7_《隐秘的角落》豆瓣影评爬取及可视化分析

    本文源码:百度云 提取码 pra2 影评爬取 豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评.一般.差评各220条,共计630条.爬取维度为评论类型.点赞数.评分.发布日期.评论. ...

  2. 爬虫7_《隐秘的角落》豆瓣影评爬取及可视化分析

    爬取链接:隐秘的角落豆瓣影评 本文源码:百度云 提取码 pra2 影评爬取 豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评.一般.差评各220条,共计630条.爬取维度为评论类型.点 ...

  3. bilibili助手C2C服务器,Bilibili (B站)200万用户数据爬取与分析(附源码)

    原标题:Bilibili (B站)200万用户数据爬取与分析(附源码) 数据挖掘入门与实战 公众号: datadw 该爬虫仅供学习使用 B站用户爬虫 B站视频爬虫 B站弹幕下载器 关注并回复公众号da ...

  4. python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  5. 爬取及分析天猫商城冈本评论(二)数据处理

    前言 根据之前我写的 爬取及分析天猫商城冈本评论(一)数据获取 方法,爬取了冈本旗舰店的所有避孕套产品的公开评论,共计30824条. 这次对这3万多条评论去做数据分析前的预处理. 数据值处理 对于搜集 ...

  6. python爬取抖音用户数据的单位是_爬取并分析一下B站的最热视频排行榜,看看大家都喜欢看什么视频...

    前言 现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉 ...

  7. Python网络数据爬取及分析-智联招聘

    python网络数据爬取及分析-智联招聘 一. 数据爬取 智联招聘是一家面向大型公司和快速发展的中小企业提供一站式专业人力资源的公司,可在智联招聘网站上根据不同城市.不同职位需求搜索得到相关招聘信息. ...

  8. python爬虫实战三:近十年中国电影票房数据爬取与分析

    近十年中国电影票房数据爬取与分析 前言 爬取 分析 十年top10 年度top5 每年电影数 每年总票房 二八原则 代码与数据 前言 这篇文章主要讲述的是近十年(2010-2019)中国电影票房数据的 ...

  9. 用Python爬取并分析了B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

最新文章

  1. 什么是蠕虫,木马以及二者跟病毒是什么关系!
  2. java当中的定时器怎么做_java当中的定时器的4种使用方式
  3. FGPA异步信号问题
  4. 【软考】2017年11月软件设计师上午真题9-12题答案解析
  5. MySQL基本分区表
  6. Oracle的JDBC Url的几种方式
  7. Gridview SummaryItem 格式化数字
  8. 万字长文丨1分36秒,100亿,支付宝技术双11答卷:没有不可能
  9. java cpu io高_服务器负载过高问题分析-不是cpu高负载也不是IO负载如何处理(阿里 几乎是必考题)...
  10. 开发里程碑计划_如何通过里程碑控制项目进度
  11. 二叉搜索树 java_二叉查找树之 Java的实现【下】
  12. 浙大中控T9100系统在压缩机上的应用
  13. 7628刷breed_H大的最新版Breed不死u-boot
  14. vue项目中实现输入框防抖功能
  15. 贝尔商道赚钱思维36道第22道:船翻友尽、相忘江湖
  16. linux实验报告ALU,《linux内核分析》第一次课 实验作业
  17. ZBrush菜单栏详解(二),3D建模新手必走的进阶之路
  18. 一篇文章带你深入理解漏洞之 XXE 漏洞
  19. 一些技能点语法糖(上)
  20. 一篇文章构建你的 NodeJS 知识体系

热门文章

  1. 【转】校招优秀简历和普通简历的区别
  2. 管理需因人而异,因时而变
  3. UVM实战书籍再复习
  4. 2020秋季《大数据与物联网》期末答案参考
  5. 我的世界1月12日服务器维护,我的世界摔落保护指令,我的世界1·17末地更新内容...
  6. 省一级计算机ppt,江苏省计算机一级PPT课件.ppt
  7. c++ 编译 curl 报错 数组‘__curl_rule_01__’的大小为负 解决方法
  8. 外企就很舒服?聊聊我在外企的工作体验
  9. freeman 链码
  10. 为什么0x100是256个字节、0x400是1KB、0x800是2KB、0x1000是4KB?