IT派助力深广创业,免费代发招聘信息,了解一下?

深陷抄袭之名、诉讼纠纷的《爱情公寓》终于上映了。

情怀粉们的力量不容小觑,截止到撰稿,《爱情公寓》票房已经突破 3.72 亿大关,稳坐票房冠军的宝座,院线排片占比高达 40.0%。

和超高票房背道而驰的,是各大社交平台上一边倒的差评。豆瓣万人打分,九成观众果断打了一星,只无奈豆瓣没有零星选项。

不知道有多少像我这样的情怀粉丝们,满怀期待地买了电影票,走进电影院,却发现是交了智商税。

豆瓣短评区里,观众们的状态已经出离愤怒,近乎暴走的状态。有人揭露电影挂羊头卖狗肉,电影内容和《爱情公寓》故事主线毫无关系,是山寨电影、诈骗电影、电影中的拼多多。

为了燃解我心头之恨,笔者将会跟你一起用猫眼上万条评论数据来分析,网友对这部电影的反响是否烂到刷新国产片不要脸的下限?

还是老规矩,整体思路将会从数据获取、数据清洗、数据可视化三部曲来进行:

数据获取清洗

具体代码如下:

import requests
import time 
import random
import json

#获取每一页数据
def get_one_page(url):

response = requests.get(url=url)
    if response.status_code == 200:
        return response.text
    return None

#解析每一页数据
def parse_one_page(html):

data = json.loads(html)['cmts']#获取评论内容
    for item in data:
        yield{
        'date':item['time'].split(' ')[0],
        'nickname':item['nickName'],
        'city':item['cityName'],
        'rate':item['score'],
        'conment':item['content']
        }

#保存到文本文档中
def save_to_txt():
    for i in range(1,1001):

print("开始保存第%d页" % i)
        url = 'http://m.maoyan.com/mmdb/comments/movie/1175253.json?_v_=yes&offset=' + str(i)

html = get_one_page(url)
        for item in parse_one_page(html):
            with open('爱情公寓.txt','a',encoding='utf-8') as f:
                f.write(item['date'] + ','+item['nickname'] +','+item['city'] +','
                    +str(item['rate']) +',' +item['conment']+'\n')
                #time.sleep(random.randint(1,100)/20)
                time.sleep(2)

#去重重复的评论内容
def delete_repeat(old,new):
    oldfile = open(old,'r',encoding='utf-8')
    newfile = open(new,'w',encoding='utf-8')
    content_list = oldfile.readlines() #获取所有评论数据集
    content_alread = [] #存储去重后的评论数据集

for line in content_list:
        if line not in content_alread:
            newfile.write(line+'\n')
            content_alread.append(line)

if __name__ == '__main__':
    save_to_txt()
    delete_repeat(r'爱情公寓_old.txt',r'爱情公寓_new.txt')

数据分析可视化

我们将用 Python 的两个模块 Pandas 与 pyecharts:

  • pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,pyecharts 是为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。(详情请看:http://pyecharts.org/)

  • Pandas 是基于 NumPy 的一个非常好用的库,正如名字一样,人见人爱。之所以如此,就在于不论是读取、处理数据,用它都非常简单。Pandas 有两种自己独有的基本数据结构。要使用 pandas,首先就得熟悉它的两个主要数据结构:Series 和 DataFrame。其中 Series 的性质和 Python 中原生的 dict 差不多,一个 key 对应一个 vaule,而且 key 必须是唯一的;DataFrame(以下简称 df)的性质则和 SQL 中的 table 差不多(详情请看:http://pandas.pydata.org/)。

真可谓电影界的“拼多多”。

我们把城市打分情况投射到地图中,可以看出:

在热力图中,白银、绵阳、遵义等三四线城市热度相对高点,也可看出随着人们消费水平的升级,去电影院看电影是娱乐首选。在满足普通人民精神娱乐需求方面,但也不能挂羊头卖狗肉,电影内容和《爱情公寓》故事主线毫无关系。这难道不是电影界的拼多多么?

评分清一色,均为 3 星级

图为主要城市的评论数量与打分情况:

由图中可看出,各大城市观众打分均为 3 星级左右,这与猫眼评分 6.6 基本吻合;打出最高分与最低分分别是哈尔滨与中山。同时也能看出,一二线城市观众对此很失望。

有些人的良心被狗吃了?

看过了评分,我们看一下评论生成的词云图:

由词云图可以看出,爱情公寓、盗墓电影二词显目在列,整部电影就 30 秒和《爱情公寓》有关,所谓的集齐原班人马回归也只是个幌子,《爱情公寓》大电影完全是一部盗墓笔记,真正毁了《爱情公寓》这个 IP,也毁了《盗墓笔记》这个 IP。

但即便是在这样观众一致认为彻底失望的情况之下,依然有一波忠实的『粉丝们』坚守阵地。他们的手中依然紧握着情怀牌,打分也是一水的五星。

对于这些水军以及说《爱情公寓》好看的人,大家可以绝交了;作为观众,任何的关注都是助长《爱情公寓》的嚣张气焰,我们也有责任自发抵制烂片,决不让诈骗电影多赚一分钱。

以上信息具体代码为:

from wordcloud import WordCloud,STOPWORDS
import pandas as pd 
import jieba
import matplotlib.pyplot as plt 
#import seaborn as sns
from pyecharts import Geo,Style,Line,Bar,Overlap

f = open('爱情公寓_new.txt',encoding='utf-8')
data = pd.read_csv(f,sep=',',header=None,encoding='utf-8',names=['date','nickname','city','rate','comment'])

city = data.groupby(['city'])
rate_group = city['rate']
city_com = city['rate'].agg(['mean','count'])
#print(city_com)
city_com.reset_index(inplace=True)
city_com['mean'] = round(city_com['mean'],2)

#热力图分析
data_map = [(city_com['city'][i],city_com['count'][i]) for i in range(0,city_com.shape[0])]
#print(data_map)
style = Style(title_color="#fff",title_pos = "center",
            width = 1200,height = 600,background_color = "#404a59")

geo = Geo("《爱情公墓》粉丝人群地理位置","数据来源:恋习Python",**style.init_style)

while True:
    try:
        attr,val = geo.cast(data_map)
        geo.add("",attr,val,visual_range=[0,20],
                visual_text_color="#fff",symbol_size=20,
                is_visualmap=True,is_piecewise=True, 
                visual_split_number=4)
    except ValueError as e:
        e = str(e)
        e = e.split("No coordinate is specified for ")[1]#获取不支持的城市名
        for i in range(0,len(data_map)):
            if e in data_map[i]:
                data_map.pop[i]
                break

else:
        break
geo.render('爱情公墓.html')

#折线+柱图分析
city_main = city_com.sort_values('count',ascending=False)[0:20]
#print(city_main)
attr = city_main['city']
v1 = city_main['count']
v2 = city_main['mean']
#print(attr,v1,v2)
line = Line("主要城市评分")
line.add("城市",attr,v2,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
    mark_point=['min','max'],xaxis_interval=0,line_color='lightblue',
    line_width=4,mark_point_textcolor='black',mark_point_color='lightblue',
    is_splitline_show=False)

bar = Bar("主要城市评论数")
bar.add("城市",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
    xaxis_interval=0,is_splitline_show=False)

overlap = Overlap()
overlap.add(bar)
overlap.add(line,yaxis_index=1,is_add_yaxis=True)
overlap.render('主要城市评论数_平均分.html')

#词云分析
#分词
comment = jieba.cut(str(data['comment']),cut_all=False)
wl_space_split = " ".join(comment)

#导入背景图
backgroud_Image = plt.imread('lan.jpg') 
stopwords = STOPWORDS.copy()
#print("STOPWORDS.copy()",help(STOPWORDS.copy()))

wc = WordCloud(width=1024,height=768,background_color='white',
    mask=backgroud_Image,font_path="C:\simhei.ttf",
    stopwords=stopwords,max_font_size=400,
    random_state=50)

wc.generate_from_text(wl_space_split)
plt.imshow(wc)
plt.axis('off')#不显示坐标轴  
plt.show()
wc.to_file(r'laji.jpg')

最后,作为《爱情公寓》之前的铁粉,只想评价一个字:烂。

烂在哪里?并不是烂在盗墓剧情,也不烂在演员特效。烂在它消费粉丝热情和爱戴,玩弄观众。

2.4 分我想更多是对韦正和汪远的评价。为了赚钱,上映前吹嘘夸大,不设点映;为了赚钱,宣传片预告片 MV 大量回忆杀,关谷展博无限出镜;为了赚钱,藏着掖着不见光不露脸,以 9.9 分的保票“催”着粉丝买预售票。上映第一天 3 亿。赚的盆满钵满。

反过来看观众,哭着脸走出影院的,多数是被结尾彩蛋感动,彩蛋才真正传达了“爱情公寓精神”。主演们对着镜头的自白,说出了我们最想听到的几段话,才真正唤起了我们脑海里对爱情公寓的美好回忆。

电影结尾的彩蛋,小姨妈呼唤关谷的那一段,算是爱情公寓最感人的地方了吧。

但是,一个彩蛋真的配 3 亿票房吗?

用近乎做作的犹抱琵琶半遮面的营销手段,让大家对它憧憬,希望它能给我们的记忆画上一个圆满的句号,可却用一部近乎玩笑的垃圾影片嘲笑我们对它的喜爱。

打着情怀的旗号,将一个个剧版粉丝骗进电影院,将电影票钱装进自己的腰包。

这就是它最烂的地方。

来源:CSDN  作者:丁彦军

∞∞∞∞∞

IT派 - {技术青年圈} 持续关注互联网、区块链、人工智能领域

公众号回复“IT派”,

邀你加入IT派 { 技术交流群 }

Python 分析《爱情公寓》电影,让我十年情怀一瞬间都喂了狗相关推荐

  1. 《爱情公寓》电影,让我十年的情怀,一瞬间都喂了狗

    点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事 作者 丁彦军 来源 恋习Python 如需转载,请联系原作者授权. 深陷抄袭之名. ...

  2. Python分析北京PM2.5,原来每年的值都在变少......

    什么是PM2.5 pm为英文particulate matter的缩写,翻译成中文叫做颗粒物.pm2.5是指大气中直径小于或等于2.5微米的颗粒物,有时也被称作入肺颗粒物.我们日常常见的雾霾天气大 多 ...

  3. 手把手教你用Python分析豆瓣电影——以《我不是药神》《邪不压正》为例

    <我不是药神>是由文牧野执导,宁浩.徐峥共同监制的剧情片,徐峥.周一围.王传君.谭卓.章宇.杨新鸣等主演 .影片讲述了神油店老板程勇从一个交不起房租的男性保健品商贩程勇,一跃成为印度仿制药 ...

  4. 牛刀小试:利用Python分析豆瓣电影Top250(一)

    使用Scrapy框架抓取豆瓣电影TOP250信息(https://movie.douban.com/top250). 获取影片信息后对数据进行清洗,手动填补遗漏的电影信息等. 整理完毕后具体信息如下 ...

  5. 大数据带你看《爱情公寓》如何十年情怀变“公墓”

    最近一场爱情公寓大电影,真的是狠狠刷了一波存在感,从2009年第一部播出至今可谓是赚足了观众的笑点,几位主演也因此大红大紫.然而,第四季结束,并没有给这个故事画上一个完美的结局,这也不禁观众对爱五蒙生 ...

  6. 用Python分析S11决赛EDGvsDK,教你怎么硬核吹EDG

    兄弟们,我们是冠军,EDG是S11世界总冠军! 世界上没有无法征服的高峰,只有永不退缩一往无前的骑士! 真的,我赛前的心理预期非常低,我一直想的是EDG能赢一局就好,赢两局血赚,结果一路打到第五局的时 ...

  7. EDG夺冠,我用Python分析一波:粉丝都炸锅了

    EDG夺冠,粉丝炸锅了! 北京时间11月6日,在英雄联盟S11总决赛中,中国LPL赛区战队EDG电子竞技俱乐部以3∶2战胜韩国LCK赛区战队DK,获得2021年英雄联盟全球总决赛冠军. 这个比赛也是备 ...

  8. EDG夺冠,用Python分析一波:粉丝都炸锅了

    本文禁止转载 EDG夺冠,粉丝炸锅了! 北京时间11月6日,在英雄联盟S11总决赛中,中国LPL赛区战队EDG电子竞技俱乐部以3∶2战胜韩国LCK赛区战队DK,获得2021年英雄联盟全球总决赛冠军. ...

  9. 用Python分析了十年电影票房,原来我错过了这么多好电影!

    "玩电影票房数据,我教你啊" 3月8日妇女节,我很期待的超级英雄电影<惊奇队长>上映了,票房表现很快过亿,但大众口碑却让人失望. 一个有趣且常见的现象是,隔壁获奖无数, ...

最新文章

  1. docker 启动命令_Jenkins视频课程在Docker环境下安装Jenkins,命令行如何启动Jenkins...
  2. CyberLink ColorDirector Ultra(视频调色工具)中文版
  3. Euro Truck Simulator 2欧洲卡车模拟2用VR玩
  4. openFeign 服务接口的调用02—— openFeign 的使用步骤
  5. [Diary] 阳 伞
  6. 特征名类似情况下的列表的快速书写
  7. sql server简单查询
  8. [精品]CSAPP Bomb Lab 解题报告(六)
  9. 佐客牛排机器人餐厅_高大上!滕州这家餐厅竟然用机器人“跑堂”(图)
  10. 三种属性操作性能比较:PropertyInfo + Expression Tree + Delegate.CreateDelegate
  11. 知识图谱学习--网易云唐宇迪老师课程记录
  12. 基于Proteus的51单片机程序设计及仿真(交通灯控制系统)
  13. iOS之Apple ID双重认证与两步验证的区别
  14. amd cpu排行_2019 CPU天梯图(intel和AMD CPU性能排行)
  15. excel取末尾数字_excel取后面几位数
  16. 【EXLIBRIS】#小词旮旯#
  17. 2017-2018 ACM-ICPC Southwestern European Regional Programming Contest (SWERC 2017) G: Cordon Bleu
  18. Linux 密码破解之 John the Ripper
  19. GIS应用技巧之矢量图斑融合
  20. 建立互信及追求卓越的环境

热门文章

  1. apache Alias用法
  2. 2018年必看最新创意手机聊天界面设计
  3. android开发--仿微信朋友圈界面
  4. mui退出登录但不退出软件继续登录,底部选项卡不能使用问题
  5. canvas第一次使用
  6. 零基础学Python课后实战第六章
  7. linux声卡驱动比windows差,Ubuntu 8.04/8.10下SB600芯片声卡驱动问题的解决
  8. elementui 表格表头换行_解决element-ui表格表头内容太长时的换行问题
  9. mybatis(18)——动态sql,where标签去掉多余的and和or
  10. 找不到msvcr110dll,无法继续执行代码,解决方法分享