作者:徐麟,目前就职于互联网公司数据部,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据。

来源 | 数据森麟(ID:shujusenlin),知乎同名专栏作者。


前言

随着春节脚步的临近,想必各位读者都已经开始规划幸福的春节长假该如何度过。阖家团聚,探亲访友,与好久没见的好基友一起谈天说地,怼天怼地,想想都是让人感到幸福。

除此之外,每年的春节档电影都会如约而至与大家见面,春节档诞生了许多的经典电影,2019的春节档电影也是佳片云集,被称作“史上最强春节档”,今天我们就带大家一起用数据去解读其中最值得看的影片。

数据获取

本次我们的数据主要来源于猫眼,一部分是猫眼的实时预售票房数据:

这部分数据可以通过selenium去获取,代码如下:

driver = webdriver.Chrome()driver.maximize_window()    driver.close() driver.switch_to_window(driver.window_handles[0])  url = 'https://piaofang.maoyan.com/dashboard?date=2019-02-05'js='window.open("'+url+'")'driver.execute_script(js)driver.close() driver.switch_to_window(driver.window_handles[0])

另一部分数据则来源于猫眼的观众评论,由于电影目前都还没有上映,观众评论给出的分数,表示了其对电影的期待值。需要注意的是,有许多观众在评论中并没有给出评分,会直接显示为0,在后续计算时需要排除,数据如下:

这部分数据的获取方法可以参照之前《3天破9亿!上万条评论解读《西虹市首富》是否值得一看》,我们就直接省略爬取代码。


预售票房

衡量一个电影关注度的重要方法就是去看首日的预售情况,我们此次选取八部春节档最主要的影片进行对比,代码如下:

p<-ggplot(data[order(data$sale,decreasing = T),][1:8,],          aes(x=reorder(name,sale),y=sale,fill=name))+  geom_bar(stat='identity',width = 0.5)+  geom_image(aes(x=name,y=0,image=image),size=0.08)+  geom_text(aes(x=name,y=2500,label=label_sale),size = 7,col='black',fontface='bold')+  ggtitle('春节档电影预售票房排名(万)') + theme_economist()+ scale_fill_tableau()+                   theme(axis.text.x = element_blank(),        axis.text.y = element_blank(),        plot.title = element_text(hjust=0.5,size=30),        panel.grid = element_blank(),        legend.position = 'none',        panel.background = element_blank(),        axis.title  = element_blank(),        axis.line = element_blank(),        axis.ticks = element_blank()  )+coord_flip()+ylim(0,6500)ggsave("春节档上映前预售排名.png", p, width = 10, height = 16)

看一下最终的结果:

目前预售排名前三位的都是喜剧题材,看来在春节的时候大家还是更加希望能够放松自己,看一下轻松题材的影评。但是预售票房并不能完全觉得最终的票房走势,可以参考之前上映后口碑崩塌的《地球最后的夜晚》和《爱情公寓》。

排名前两位的影片都有沈腾的参与,看来目前沈腾的票房认可度还是不错的,希望两部影片最终都会取得不错的结果。

从预售票房上看,《廉政风云》和《神探蒲松龄》都有比较大的扑街危险,考虑到港片近期略显低迷的表现,希望这两部影片能够带来一些惊喜。


上映前口碑

另外我们也看一下上映之前,观众对于影片的整体评价情况,这也会在一定程度上体现观众的期待值:

代码如下:

p<-ggplot(data[order(data$score,decreasing = T),][1:8,],          aes(x=reorder(name,score),y=score,fill=name))+  geom_bar(stat='identity',width = 0.5)+  geom_image(aes(x=name,y=0,image=image),size=0.08)+  geom_text(aes(x=name,y=2,label=label_score),size = 7,col='black',fontface='bold')+  ggtitle('春节档电影上映前评价') + theme_wsj()+ scale_fill_tableau()+                   theme(axis.text.x = element_blank(),        axis.text.y = element_blank(),        plot.title = element_text(hjust=0.5,size=30),        panel.grid = element_blank(),        legend.position = 'none',        panel.background = element_blank(),        axis.title  = element_blank(),        axis.line = element_blank(),        axis.ticks = element_blank()  )+coord_flip()+ylim(0,5)ggsave("春节档上映前评分排名.png", p, width = 8, height = 12)

看一下最终的结果:

《熊出没》出人意料的在评分中排在首位,这也一定程度上提高了作者对这部影片的期待值,虽然以作者的年龄,应该是不适合去看这部影片,《小猪佩奇》凭借此前的超强营销,成功引起了大家的主要,然而最终表现如何,还是需要上映后接受观众的检验。

同时我们看到成龙大哥领衔的《神探蒲松龄》在评分上要落后于其他影片,看来大家对于这类题材的影片持保留意见比较多一些,我们也期待上映后口碑是否能够实现翻盘。

影片看点

我们最后通过评论去挖掘上映前大家比较关注的点,主要采用jieba分词,需要注意的是,我们需要在分词前增加一些自定义词典,比如“黄景瑜”,如果不加这个自定义词典,就会被分为“黄景”,之后我们会根据词语出现频率筛选出重要的关键词:

def key_words(df):    comment_str =  ' '.join(df)    words_list = []    jieba.load_userdict('spring_film_dict.txt')    word_generator = jieba.cut(comment_str)  # 返回的是一个迭代        f.close()  # stopwords文本中词的格式是'一词一行'    for word in word_generator:        words_list.append(word)    words_list = Counter([k for k in words_list if len(k)>1])    return list(dict(words_list.most_common(30)).keys())

最后我们在每个影片中选取了五个能够体现其看点的词语,并进行可视化:

我们选取一些比较有趣的看点组合,进行一下深刻(suixing)解读:

《神探蒲松龄》:大家都在期待成龙大哥的表演,虽然有很多人提前给其打上了“烂片”的标签,但是依然期待影片口碑的翻盘。同时大家也会认真关注影片特效,不知是否会致敬此前5毛钱“duang”的特效。

《飞驰人生》《疯狂的外星人》:感觉沈腾大有承包今年春节档的态势,预售排名前两位影片中,观众最关注的看点都是沈腾,期待沈腾春节霸屏同时也能收获不错的口碑。沈腾又是和外星人打交道,又是要体验飞驰的人生,喜欢沈腾的观众在春节档可以大饱眼福了。

《小猪佩奇过大年》:一部适合孩子观看的影片,也是一部宣传片获得极大讨论度的影片,希望不要步此前《地球最后的夜晚》上映后口碑崩盘的后尘。

《新喜剧之王》:显然大部分观众对这部影片的期待来自于星爷,有了此前经典版的《喜剧之王》珠玉在前,《新喜剧之王》不可避免地会被哪来与原作对比,我们期待能够简直有一部经典的影片出现。

最后提前祝愿大家新年愉快,体会与家人团聚的幸福同时也能看到精彩的影片!同时大家也可以在留言区与我们互动,分享自己春节档会选择去观看的影片。


(本文为 AI科技大本营转载文章,转载请微信联系原作者。)

公开课预告

如何用AI技术为黑白老照片上色?本次公开课中,百度高级研发工程师李超将讲述对抗生成网络相关,学术界的研究现状和应用场景,以及GAN在百度视觉+百度PR+新华社合作的焕彩项目中的应用。

推荐阅读

  • AI找Bug,一键快速预测

  • 春节停车难?用Python找空车位

  • Python告诉你:为何年终奖多发一元,到手却少两千多?

  • 送你一份春节看片攻略~

  • 原子互换:一统公链江湖的神来之笔

  • 春晚鬼畜 B 站日排行最高,赵本山:我的时代还没有结束!

  • “离开360时,它只给了我一块钱”

  • 5G大规模商用来临之前,你必须知道的几个知识点

  • 女程序员:我敲代码养家,老公负责貌美如花!

数据解读2019春节档哪部电影最值得看?相关推荐

  1. 2021春节档7部电影数据分析报告

    2021春节档7部电影数据分析报告

  2. Python分析春节档七部电影的口碑和票房数据,并可视化显示

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者李运辰 Python爬虫.数据分析.网站开发等案 ...

  3. 国家版权局:多部门联合打击春节档院线电影盗版传播

    2019年春节期间,国内院线上映的8部国产电影丰富人民群众精神文化生活,受到广泛欢迎,创下春节档院线电影票房新纪录,但电影的盗版传播问题也引起社会关注.为维护清朗的网络版权秩序,促进电影产业健康繁荣发 ...

  4. “史上最强春节档”来袭!数据告诉你这几部影片最值得看

    导读:随着春节脚步的临近,想必各位读者都已经开始规划幸福的春节长假该如何度过.阖家团聚,探亲访友,与好久没见的好基友一起谈天说地,怼天怼地,想想都是让人感到幸福. 除此之外,每年的春节档电影都会如约而 ...

  5. 万条票房数据看2019春节档各地影院表现(附源码)

    点击上方 蓝色文字,选择置顶或星标 第一时间关注 Python 技术干货! 阅读文本大概需要 5 分钟. 今年春节档全国共有8部影片上映,对于影片的对比分析已经非常多,孰优孰劣,每个人心里都有一杆秤, ...

  6. python宣传片_我用Python告诉你“2019春节档”必看影片

    随着春节脚步的临近,想必各位都已经开始规划幸福的春节长假该如何度过.阖家团聚,探亲访友,与好久没见的好基友一起谈天说地,怼天怼地,想想都是让人感到幸福. 除此之外,每年的春节档电影都会如约而至与大家见 ...

  7. 这几十部电影,我看以后都写了观后感

    没有对比就没有伤害,发现近3年来的观影频率出现了较大的波动.2016年忙得昏天暗地,竟然还抽空看了11部电影.如果片子还可以,我一般都会写篇影评.2017年影评写得少了,而且发现影评越来越难写了,一方 ...

  8. 数据解读 | 这届年轻人为什么开始在B站看刑法了?

    ▼ 更多精彩推荐,请关注我们 ▼ 本文经授权转自    DT财经(ID:DTcaijing) 作为一个法学专业的门外汉,小贺最近对刑法课视频走火入魔.而让小贺掉入深坑的致命诱惑就是最近火速蹿红的法律界 ...

  9. 春节档影片的成本各是多少?

    春节假期档上映的电影共有七部. <侍神令>成本最高,票房收入垫底.<你好,李焕英>成本最低,票房却最高,成功从春节档七部电影中脱颖而出,成为2020年投资回报率最高的小成本电影 ...

最新文章

  1. 前端的一些常用DOM和事件归纳
  2. vue 报错 Cannot read property ‘__ob__‘ of undefined的解决方法
  3. 移动互联网的下个十年猜想
  4. 【备忘录】创建数字数组
  5. XAMPP中Apache因为端口原因不能启动的解决方法
  6. Select的onchange事件
  7. 解析恶意软件***技术特点
  8. Atitit 重复文件清理工具 按照文件名 目录 1. 原理, 1 1.1. If base filex exist dele other files 1 1.2. Get getStartIdex
  9. 开源网管工具 Cacti,Nagios,Zabbix 比较
  10. java 密码复杂度_java密码复杂度校验
  11. 图计算:社区发现算法
  12. word打印机显示服务器脱机,教你怎样解决打印机脱机打印-word资料(精).docx
  13. 解决IE11兼容HTML5 设置
  14. 华硕a豆安装ubuntu14.04系统开启wifi
  15. The simplest way to combine two csv file in python
  16. 编程序,用getchar函数读人两个字符给c1和c2,然后分别用
  17. 基于STM32标准库建立Keil-MDK工程模板(STM32F407ZG)
  18. c语言循环移位寄存器,[转载]关于移位寄存器74HC164的使用
  19. java对配_[Java教程]对局匹配
  20. Django使用WebSocket

热门文章

  1. PyTorch 1.0 中文官方教程:使用字符级别特征的RNN网络生成姓氏
  2. 请相信时间的力量,但你得做点什么
  3. 栈的入栈和出栈的顺序规律
  4. 目前电视盒子哪个最好?测评20款后整理网络电视盒子推荐
  5. 零基础如何入门python语言_零基础如何开始学习 Python
  6. 平等“与”言论自由“
  7. 美图秀秀快速将多张图片拼接成长图的方法
  8. 基于深度学习的物体图像识别
  9. 七日杀服务器技能点修改,七日杀技能点修改方法 七日杀技能点怎么调
  10. TCP/IP协议族-----15、传输控制协议(TCP)