票房分析可以说是大数据分析一个非常典型的应用了,具有数据来源多(历史票房数据、社交媒体互动、受众反馈等)、数据量大、影响因子多(用户评价、宣传流量、预售量、档期、题材、流量明星)等等特点,可是真正到实践之中仍然不尽如人意。

图片来自网络

截止到今天,中国首部重工业科幻电影《流浪地球》票房已经突破 41 亿元,很可能会最终突破 50 亿票房。惊人的票房数据让众多票房预测机构大跌眼镜。根据我们的统计,在春节档之前,不同预测机构给《流浪地球》的票房预测普遍在 10 亿左右,与本片的实际票房差距在五倍左右。

与此同时,在春节档其它电影的票房预测上,预测机构也普遍呈现了非常大的偏差,甚至在电影第一天的票房数据之后,猫眼APP 给出的《喜剧之王》的预测值仍然达到了 24.96 亿,而实际上,《喜剧之王》的票房之后就大幅缩水,最终的票房很可能只停留在 6 亿左右。

票房分析可以说是大数据分析一个非常典型的应用了,具有数据来源多(历史票房数据、社交媒体互动、受众反馈等)、数据量大、影响因子多(用户评价、宣传流量、预售量、档期、题材、流量明星)等等特点,可是真正到实践之中仍然不尽如人意。那么,为什么数据预测这么难呢?怎么来提升数据预测的准确性呢?

一、大数据来进行票房预测的三种思路

Datahunter 资深数据分析师介绍称,目前针对电影票房的预测主要有以下三种思路:

第一种思路可以形象的理解为“照猫画虎”,其原理在于:目前市场上已经上映了大量的影片,并积累了海量的票房变动数据,深度神经网络模型可以依据某一部影片的大量用户行为数据,在定档影片上映前一个月就可以给出该片的首日票房预测;同时,系统自动筛选出与之最相似的电影,描绘出待映电影的未来票房走势图,进而预测出这部影片在上映期间的每日票房以及最终的总票房。谷歌所采用的预测模型只选取了三种维度:电影预告片的搜索量、同系列电影前几部的票房表现、档期的季节性特征,最终获得94%的预测准确率。

谷歌建立的票房预测线性回归模型

这种方式的优点在于简单直接,更接近传统大数据分析“只反映趋势,不深究因果”的理念,上映时间越长,其预测的数据就越为精准,往往适用于猫眼等掌握了大量票房数据的企业。但缺点在于,其无法将电影上映过程中众多的复杂因素考虑进来,所以经常会出现预测波动大、与实际偏离值较高等缺陷。

第二种思路则较为复杂,而且会将更多的因子纳入到考量因素中来。其先根据历史票房变化预测出某一个档期的总票房,然后根据社交媒体讨论数量、不同导演与演员的历史电影质量、点映用户的评价、票房情况、SEO情况等预测出各电影票房占比,之后综合预测出各电影的实际票房。这种方式优点在于更多的将“电影评价”这一个重要因子纳入到考量范围内,通过电影导演表现、上映前反馈等等因素来判断出电影的流行趋势,因此预测精准性方面有更好的效果。

第三种思路则综合了大数据分析与人工决策,即先使用大数据分析来对于影片的票房进行一个事先的预测,并输出可视化的数据图表。与此同时,专家会对具体的电影进行分析,找出其潜在的爆点或是隐患,并评估其可能带来的影响,并以加权的方式纳入到模型之中进行修正。这种方式在预测爆品方面有更好的表现,也是 Datahunter 优先推荐的方式,这种方式我们在稍后会继续讲到。

二、票房预测为什么这么难?

尽管有着大量的数据以及先进的工具,但是票房预测仍然没有达到让人满意的精准率,这就要像金融行业中经常谈到的“黑天鹅”概念一样,非常难以预测、且不寻常的事件经常会发生,而且还会引起连锁负面反应甚至颠覆。体现在大数据分析与预测场景中,只要某个隐性但关键的因素没有没纳入到模型中,将可能使预测与事实产生重大偏差。

这也是大数据分析的难点所在:事物变化的影响因素非常多,几乎不可能穷尽,谁知道哪一个因素将会产生连锁式的反应?而且,由于很多大数据分析工具并不考虑因果性,只考虑相关性,经常会带来“虚假相关”的问题,也就是无法对于数据变化的真正原因进行归因。在大多数场景下,这样的预测并没有什么问题,但是在特定的场景下,偏离预测的情况仍有可能会发生。

更加不可控制的则是不成熟的市场环境,以及潜在的风险因素,比如影片档期选择、宣发策略的一招失误,就可能导致整个影片的票房成几倍的误差。而某个关键演员的负面新闻也同样会带来不可预期的影响,例如吴秀波的丑闻导致《情圣2》的撤档,范冰冰事件则直接导致《大轰炸》放弃国内上映,赔的血本无归。在这里我还是要推荐下我自己建的大数据学习交流kou裙:数字515+数字269+数字485 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。

如果将具体电影代入到预测模型中,我们将很容易发现预测的难度:如果使用谷歌预测模型来预测《流浪地球》,只有档期的季节性特征是利于其票房发挥的,其不仅电影预告片的搜索量不及同档期竞争电影,而且同系列的科幻电影几乎没有市场表现,无怪乎得到众多预测机构的看衰。这样的例子并不少,其突出的特点就是口碑的大幅引爆,比如《疯狂动物城》、《白蛇传》、《红海行动》乃至票房榜首《战狼》都属于这个类型。

三、数据预测准确率如何改善?

尽管电影票房预测看似困难重重,但是仍旧可以通过不同的方式进行改善。在前面我们提到了大数据分析与人工决策相结合的方式,其核心原理就是利用人工思维的主观能动性与创造性,发掘电影票房中潜在、但关键的影响因子,最终来得出结论。而这一影响因子是不断发生变化的,几年之前,这一关键因子往往体现在 IP、流量明星中,现在,口碑、开创性对于票房会带来更大的影响。

有些人会问,电影尚未上映,口碑怎么来进行判断呢?其实,这往往是有迹可循的,其数据可能来源于电影的提前点映评价、预告片、拍摄周期等等因素。例如,在上映之前,《流浪地球》的点映就得到了观众的超高评价,而《爱情公寓》大电影还没上映我们就基本可以判断是烂片。当然,这些都是大数据系统无法完全告诉我们的,需要专家进行评判。

要评价电影对于观众的吸引力,还可以采取 LDA 来进行分析,LDA 是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。下面是不同机构通过 LDA 对《流浪地球》进行的词云图分析,可以看出《流浪地球》的科幻、特效等核心词汇很好的切中了当前观众的“痛点”,完全可以在预测中给出更高的评判。

四、数据分析的其它应用场景

除了票房之外,其它应用场景可以利用大数据分析+人工决策的方式进行分析么,答案是肯定的。目前 Datahunter 正在搭建 Data Analytics 数据分析平台+Data Wisdom数据智能决策的人工智能决策辅助平台,这套系统并没有激进的将所有决策任务都交给机器系统,而是将数据挖掘结果输出给专家,并结合专家判断进行调整,能够更好的预防“黑天鹅”事件的发生。

例如,在销售数据预测时,除了可以根据历史销售数据、人口密度、消费水平、消费习惯、商圈口碑等数据进行深度数据挖掘之外,管理者或是专家还会根据帕努单那纳入其它的影响因子(例如某项活动的举行、补贴政策的退出等等),根据结果进行相应的资源调配以及销售额调控措施,让销售更富精准性。

《流浪地球》票房:预测10亿却飚50亿 ,大数据预测为什么这么难...相关推荐

  1. 2018世界杯球队热度CGI榜:大数据预测巴西、法国成夺冠热门

    2018世界杯赛程已过半,在各种爆冷和黑马横飞之中,球迷们目送卫冕冠军德国队带着几百斤土豆离开了俄罗斯,也为梅西和C罗的离去在天台久久徘徊.在各种实力排行榜都被推翻后,球迷们苦于找不到一个依据来预测今 ...

  2. 大数据预测犯罪?不 是预防犯罪!

    在这个信息完全透明的时代,除非你脱离社会远离人群,才有理论上的可能保证自己的信息绝对安全,但是,这真的不可能.而如电影<少数派报告>中所描述的场景,通过大数据采集预测犯罪,则是信息透明到了 ...

  3. “京东小贷” 注册资本由30亿元增至50亿元,恭喜

    企查查显示,近日重庆京东盛际小额贷款有限公司(下称"京东小贷")发生工商变更,注册资本由30亿元增至50亿元,增幅为66.67%. 不仅京东小贷,今年以来,美团.腾讯.字节跳动等互 ...

  4. 【大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析

    [大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析-哔哩哔哩https://b23.tv/saIKtBH flask web框架,数据使用requests模块爬取数据, ...

  5. 干货|50个大数据面试问题及答案第二篇:10个大数据面试中级问题

    上一篇文章我们总结了10个大数据面试入门级问题,大家是否有收获,如果还没有看的小伙伴,可以直接跳转<干货|50个大数据面试问题及答案第一篇:10个大数据面试入门级问题>开始学习吧! 本次我 ...

  6. 大数据预测:成都、郑州等跻身春节十大“瘦身”城市

    中新社北京1月23日电(记者 刘育英)23日发布的一份春节期间出行大数据预测报告显示,十大人员净流出的"瘦身"城市中,成都.郑州等区域中心城市,以及东莞.苏州.佛山等外来务工人员较 ...

  7. 大数据预测:未来最吸金的领域

    到了2020年,世界上每个人每秒将创造7 MB的数据.在过去的几年里,我们已经创造了比人类历史上更多的数据.大数据席卷全球,并且没有放缓的迹象.人们可能会想,"大数据产业从哪里开始?&quo ...

  8. 1亿元“真金白银”发展大数据产业

    晨报讯 设立5000万大数据产业基金,5000万大数据产业专项资金,针对云计算.物联网等大数据相关产业给予支持.江淮晨报.江淮网记者从蜀山区获悉,该区率先在全市出台<关于推进大数据发展实施意见& ...

  9. 一只火鸡带你了解大数据预测(经典)

    纽约大学特聘教授纳西姆·尼古拉斯·塔勒布有一本代表性的著作<黑天鹅>,认为未来发生的事情是纯随机的,人类要是根据过去的经验去对未来的事情进行预测,那是完全不靠谱的,正如书名所表示的:在发现 ...

最新文章

  1. 查询提升200倍,ClickHouse你值得拥有!
  2. Python 进阶_生成器 生成器表达式
  3. java中split特殊符号
  4. 今日头条 文章采集_我在今日头条的成长之路—文章的排版与结构
  5. OpenLDAP / Ubuntu 18.04 下 docker 版安装
  6. nginx限流健康检查
  7. 黑科技轮胎:有能发电的,脑洞简直不要太大...
  8. 《Algorithms》Java 语言特性
  9. python getattr用法_python自省函数getattr的用法
  10. 关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
  11. LoadRunner 11 安装及破解
  12. tensorflow之 feature_column + pre-made estimator组合实战
  13. MySQL高级 知识点汇总
  14. 向云再出发:如数据般飞驰的内蒙古
  15. Pandas学习 - 索引
  16. Leetcode PHP题解D1:宝石与石头
  17. Mac下安装Mavenidea配置maven
  18. 合肥工业大学机器人技术期末_合肥工业大学 机器人技术 作业和实验
  19. html设置横线中间的字,CSS伪元素before,after制作左右横线中间文字效果
  20. SAR ADC 介绍 核芯CL1606/CL1689/CL1680 替代AD7607/AD7689/AD1980

热门文章

  1. 安装smartPPT,电脑显示系统桌面就卡住……
  2. 90后在校大学生开旅游公司创业
  3. 傅立叶变换与小波分析(浅析)
  4. Windows7下PHP 7.1搭建开发环境
  5. 羽毛球规则之羽毛球场地尺寸(球场、网柱、球网)
  6. Content Negotation在Nancy的实现和使用
  7. 计算机二级c内容,计算机二级C语言考试内容大纲
  8. CSS绝对定位模拟固定定位(absolute模拟fixed)
  9. Flutter factory关键字
  10. Far planner 部署真实小车 树莓派部署lego_loam