作者 | 徐麟,目前就职于互联网公司数据部,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据

来源 | 数据森麟

编辑 | Jane

前言

随着春节脚步的临近,想必各位读者都已经开始规划幸福的春节长假该如何度过。阖家团聚,探亲访友,与好久没见的好基友一起谈天说地,怼天怼地,想想都是让人感到幸福。

除此之外,每年的春节档电影都会如约而至与大家见面,春节档诞生了许多的经典电影,2019的春节档电影也是佳片云集,被称作“史上最强春节档”,今天我们就带大家一起用数据去解读其中最值得看的影片。

数据获取

本次我们的数据主要来源于猫眼,一部分是猫眼的实时预售票房数据:

这部分数据可以通过selenium去获取,代码如下:

driver = webdriver.Chrome()
driver.maximize_window()    
driver.close()
driver.switch_to_window(driver.window_handles[0])  
url = 'https://piaofang.maoyan.com/dashboard?date=2019-02-05'
js='window.open("'+url+'")'
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])

另一部分数据则来源于猫眼的观众评论,由于电影目前都还没有上映,观众评论给出的分数,表示了其对电影的期待值。需要注意的是,有许多观众在评论中并没有给出评分,会直接显示为0,在后续计算时需要排除,数据如下:

这部分数据的获取方法可以参照之前3天破9亿!上万条评论解读《西虹市首富》是否值得一看,我们就直接省略爬取代码

预售票房

衡量一个电影关注度的重要方法就是去看首日的预售情况,我们此次选取八部春节档最主要的影片进行对比,代码如下:

p<-ggplot(data[order(data$sale,decreasing = T),][1:8,],
         aes(x=reorder(name,sale),y=sale,fill=name))+
 geom_bar(stat='identity',width = 0.5)+
 geom_image(aes(x=name,y=0,image=image),size=0.08)+
 geom_text(aes(x=name,y=2500,label=label_sale),size = 7,col='black',fontface='bold')+
 ggtitle('春节档电影预售票房排名(万)') + theme_economist()+ scale_fill_tableau()+                
 theme(axis.text.x = element_blank(),
       axis.text.y = element_blank(),
       plot.title = element_text(hjust=0.5,size=30),
       panel.grid = element_blank(),
       legend.position = 'none',
       panel.background = element_blank(),
       axis.title  = element_blank(),
       axis.line = element_blank(),
       axis.ticks = element_blank()
 )+coord_flip()+ylim(0,6500)
ggsave("春节档上映前预售排名.png", p, width = 10, height = 16)

看一下最终的结果:

目前预售排名前三位的都是喜剧题材,看来在春节的时候大家还是更加希望能够放松自己,看一下轻松题材的影评。但是预售票房并不能完全觉得最终的票房走势,可以参考之前上映后口碑崩塌的《地球最后的夜晚》和《爱情公寓》。

排名前两位的影片都有沈腾的参与,看来目前沈腾的票房认可度还是不错的,希望两部影片最终都会取得不错的结果。

从预售票房上看,《廉政风云》和《神探蒲松龄》都有比较大的扑街危险,考虑到港片近期略显低迷的表现,希望这两部影片能够带来一些惊喜。

上映前口碑

另外我们也看一下上映之前,观众对于影片的整体评价情况,这也会在一定程度上体现观众的期待值:

代码如下:

p<-ggplot(data[order(data$score,decreasing = T),][1:8,],
         aes(x=reorder(name,score),y=score,fill=name))+
 geom_bar(stat='identity',width = 0.5)+
 geom_image(aes(x=name,y=0,image=image),size=0.08)+
 geom_text(aes(x=name,y=2,label=label_score),size = 7,col='black',fontface='bold')+
 ggtitle('春节档电影上映前评价') + theme_wsj()+ scale_fill_tableau()+                
 theme(axis.text.x = element_blank(),
       axis.text.y = element_blank(),
       plot.title = element_text(hjust=0.5,size=30),
       panel.grid = element_blank(),
       legend.position = 'none',
       panel.background = element_blank(),
       axis.title  = element_blank(),
       axis.line = element_blank(),
       axis.ticks = element_blank()
 )+coord_flip()+ylim(0,5)
ggsave("春节档上映前评分排名.png", p, width = 8, height = 12)

看一下最终的结果:

《熊出没》出人意料的在评分中排在首位,这也一定程度上提高了作者对这部影片的期待值,虽然以作者的年龄,应该是不适合去看这部影片,《小猪佩奇》凭借此前的超强营销,成功引起了大家的主要,然而最终表现如何,还是需要上映后接受观众的检验。

同时我们看到成龙大哥领衔的《神探蒲松龄》在评分上要落后于其他影片,看来大家对于这类题材的影片持保留意见比较多一些,我们也期待上映后口碑是否能够实现翻盘。

影片看点

我们最后通过评论去挖掘上映前大家比较关注的点,主要采用jieba分词,需要注意的是,我们需要在分词前增加一些自定义词典,比如“黄景瑜”,如果不加这个自定义词典,就会被分为“黄景”,之后我们会根据词语出现频率筛选出重要的关键词:

def key_words(df):
   comment_str =  ' '.join(df)
   words_list = []
   jieba.load_userdict('spring_film_dict.txt')
   word_generator = jieba.cut(comment_str)  # 返回的是一个迭代        f.close()  # stopwords文本中词的格式是'一词一行'
   for word in word_generator:
       words_list.append(word)
   words_list = Counter([k for k in words_list if len(k)>1])
   return list(dict(words_list.most_common(30)).keys())

最后我们在每个影片中选取了五个能够体现其看点的词语,并进行可视化:

我们选取一些比较有趣的看点组合,进行一下深刻(suixing)解读:

《神探蒲松龄》:大家都在期待成龙大哥的表演,虽然有很多人提前给其打上了“烂片”的标签,但是依然期待影片口碑的翻盘。同时大家也会认真关注影片特效,不知是否会致敬此前5毛钱“duang”的特效。

《飞驰人生》《疯狂的外星人》:感觉沈腾大有承包今年春节档的态势,预售排名前两位影片中,观众最关注的看点都是沈腾,期待沈腾春节霸屏同时也能收获不错的口碑。沈腾又是和外星人打交道,又是要体验飞驰的人生,喜欢沈腾的观众在春节档可以大饱眼福了。

《小猪佩奇过大年》:一部适合孩子观看的影片,也是一部宣传片获得极大讨论度的影片,希望不要步此前《地球最后的夜晚》上映后口碑崩盘的后尘。

《新喜剧之王》:显然大部分观众对这部影片的期待来自于星爷,有了此前经典版的《喜剧之王》珠玉在前,《新喜剧之王》不可避免地会被哪来与原作对比,我们期待能够简直有一部经典的影片出现。

最后提前祝愿大家新年愉快,体会与家人团聚的幸福同时也能看到精彩的影片!同时大家也可以在留言区与我们互动,分享自己春节档会选择去观看的影片。

代码链接:

https://github.com/shujusenlin/spring_film

(本文为Python大本营转载文章,转载请联系作者。)

福利

公众号后台回复:2018Python,获取2018Python开源项目Top100整理资料!或扫码添加小助手微信,回复:1,入群获取。

推荐阅读:

  • 为何年终奖多发一元,到手却少两千多?

  • 用Python全自动下载漂亮小姐姐的抖音视频!

  • PDF翻译神器,再也不担心读不懂英文Paper了

  • 如何教机器自己玩俄罗斯方块

  • 算法工程师必须要知道的面试技能雷达图

  • 100+Python编程练习题~

  • PDF翻译神器,再也不担心读不懂英文Paper了

  • 用“AI”给吴秀波测面相,发现······

  • Python的P图大法,你值得拥有!

  • 任正非:人工智能就是计算机和统计学

送你一份春节看片攻略~相关推荐

  1. 想申请高新技术企业吗?送你一份最新申报攻略!

    你还在羡慕别的企业能批到百八十万的政府补贴吗? 你还在发愁如何提升企业品牌形象吗? 你还在烦恼偏高的企业所得税吗? -- 这些问题,其实都能得到解决! 认定高新技术企业 六大优势助力企业快速腾飞 1. ...

  2. 这份春招攻略,希望大家可以收藏!

    师弟妹们,这份春招攻略,希望可以让你们清醒一下.(当然,本篇不仅仅适用于大三同学,也适用于研一研二,打算走互联网开发方向的同学.) 1.扫盲篇 1.1 春招 春招,即春季招聘,包括春招实习 + 春招补 ...

  3. 如何使用ChatGPT做一份五一出游攻略?

    五一假期即将来临,或许你已经着手计划这个假期的旅游行程了呢? 但是若是缺乏旅游行程规划的经验,或者在选择质量上良莠不齐的攻略时感到困惑,你可以尝试使用ChatGPT来创建一份自己的旅游攻略哦! 首先, ...

  4. 大学开学初计算机水平测试,请查收这份大学生开学攻略——

    原标题:请查收这份大学生开学攻略-- 恭喜你!马上要开始大学生活啦! 什么?你想要关于大学的建议? 早就准备好啦,快来看

  5. 大学学什么课会用到matlab,高校蹭课?这份蹭课攻略请收好!| 内附福利

    原标题:高校蹭课?这份蹭课攻略请收好!| 内附福利 蹭课? 只能蹭自己学校的课? NO! 你是否想过 有一天去蹭其他学校的课? 拥有一个蹭课的心 却不知道从何蹭起? ☑ 就让小编手把手教你 如何蹭到自 ...

  6. 【收红包】最新最全!春节抢红包攻略:又到参与几个亿项目的时候了…

    关注我们 有了这个攻略 你就可以踏实抢红包了! 盘点几家红包大户 在抢红包之路上助你们一臂之力~ 腾讯QQ: 走的越多,红包越多 1月5日,腾讯QQ正式发布"QQ走运红包".据悉, ...

  7. 520这份花式表白攻略请查收

    马上又到520了,粉粉们是不是都已准备好一波浪漫的表白了呢?无论是怦然心动的初恋,还是岁月静好的缱绻,爱就要表达出来,浪漫永远不会过时!此时不表白更待何时?在这个浪漫的初夏时节,送你一份特别的花式表白 ...

  8. 不想被问年终奖?2018年春节自救攻略来了!

    转眼间,春节即将来临!当然按捺不住那颗归家的心~ 但是想到回家,就要接受来自七大姑八大姨的亲切问候,美好的假期变得不怎么美好了,瞬间忧伤起来~ 对象难找.年终奖少,当被七姑八姨问起时,内心总会产生抵触 ...

  9. 秋招要跪?不怕!领走这份机器学习求职攻略

    AI人才严重缺乏,2018年秋招提前批的"AI人才争夺战"已经开启,许多有意跳槽的小伙伴也在跃跃欲试.但是,你真的准备好了吗? 为了拿到Dream Offer,通过面试必然十分关键 ...

最新文章

  1. php中序列化与反序列化
  2. 利用OpenCV的函数createTrackbar创建滑动条查看二值化的最优阈值的源码及讲解
  3. 由键盘下陷引起的奇怪事件
  4. 龙卷风优化软件测试面试题,暑X好物大推荐,最强真无线降噪耳机带你开启夏日解压模式...
  5. 【.NET Core项目实战-统一认证平台】第十三章 授权篇-如何强制有效令牌过期
  6. 【C++深度剖析教程39】实现C++数组类模板
  7. 任务管理器只有概要信息解决办法
  8. 正则表达式 匹配点号_自动化关联篇JMeter(十)-正则表达式关联
  9. 3h精通OpenCV(四)-绘制形状与文本
  10. 【第一部分】04Leetcode刷题
  11. ubuntu中gitlab搭建
  12. CNN实现手写数字识别
  13. linux系统键盘关机快捷键,Linux三种关机/重启系统的命令
  14. 主程玩失踪,公司蒸发600w,创始人秒变打工仔(含视频)
  15. 统计学与计算机考研学校排名,2018统计学考研院校排名
  16. 十面阿里,七面头条,六个Offer,春招结束
  17. OMAPL138的DSPLINK开发入门
  18. 周庄王,姬佗(公元前696年—公元前682年在位)
  19. 帝国cms插件支持7.0/7.2 7.5/UTF-8 微信登入插件 一键登入
  20. postgresql 数据库 alter table alter column set default 的一些实践

热门文章

  1. vue结合websocket
  2. mount -t ntfs 读写_享受更快的读写体验!技嘉黑雕AORUS Gen4 SSD 1TB评测
  3. 数据库连接池了解和常用连接池对比
  4. java 数据库连接原理_JAVA- 数据库连接池原理
  5. Mysql——存储引擎
  6. 查询应用服务器fc端口wwn号,几种操作系统下如何查看FC HBA卡WWN号
  7. python+selenium+unittest爬取斗鱼网
  8. Spring Boot 引入 Thymeleaf 及入门使用
  9. Python异常名称、警告
  10. 京东618叠蛋糕,2020年京东叠蛋糕玩法攻略