电影院开工在即,第一部电影就看他
因新冠肺炎的影响,今年的1月27号,国内的各大影院全部都关门歇业,7部春节档电影全部撤档。到今天为止,我们已经170多天没有走进电影院了。
这半年对于中国电影来说,毫无疑问是中国电影史上最至暗的半年。2020年整个上半年,内地电影总票房维持在22.42亿,并且从农历大年初一开始,这个数字一直就没有变过。跟去年同期313.26亿的成绩,同比下跌92.8%。这个跌幅数字,也让电影行业成为了今年受疫情影响最高的行业之一。
好消息是,国家电影局今天发布通知:低风险地区在电影院各项防控措施有效落实到位的前提下,可于7月20日有序恢复开放营业。
电影院重开,将为整个产业注入强心针。想要看新电影的各位影迷们又可以走进影院了。那么,我们看到的第一部电影会是哪部呢?
这部电影的故事发生在地大物博风景壮丽的新疆,艾萨是一个从小到大都在这里长大的土生土长的新疆男孩。艾萨出生在一个并不富裕的家庭之中,母亲的患病让家里的经济条件雪上加霜,母亲的病不仅让她丧失了语言功能,还常常会离家出走不见踪迹,因此艾萨必须在上学之余格外小心的看护随时都会发生状况的母亲,因为艾萨深深的爱着自己的母亲,所以这点苦他从来都不放在心上。
凯丽比努尔是艾萨最好的朋友,艾萨遇到了什么烦心事第一个想到的就是和她倾诉,两人还共同养育着一只小羊。人生海海,每一步都是两人相互扶持着走过,一路上留下最美好的回忆。
那么这部电影究竟怎么样呢,不妨看一下严苛的豆瓣影迷对它的评价。接下来我将爬取豆瓣的评论来进行分析。
爬取豆瓣评论
本文采用requests + Xpath,爬取豆瓣电影《第一次的离别》部分短评内容。话不多说,代码先上:
import requests,time,random
from lxml import etree
import pandas as pd
urls='https://movie.douban.com/subject/30337172/comments?start={page}&limit=20&sort=new_score&status=P&percent_type='
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
'Host':'movie.douban.com',
'Referer':'https://movie.douban.com/subject/30337172/comments?status=F',
'Upgrade-Insecure-Requests': '1'
}
data=[]
for i in range(0,200,20):
print(i)
url=urls.format(page=i)
html=requests.get(url,headers=headers,cookies=cookie)
# print(html.status_code)
selector=etree.HTML(html.content)
comments=selector.xpath("//div[@class='comment']")
for each in comments:
datum={}
nickename=each.xpath("./h3/span[@class='comment-info']/a/text()")[0]
watched=each.xpath("./h3/span[@class='comment-info']/span[1]/text()")[0]
rating=each.xpath("./h3/span[@class='comment-info']/span[2]/@class")
if len(rating)>0:
rating=rating[0]
rating=rating[7]
comment_time=each.xpath("./h3/span[@class='comment-info']/span[3]/@title")
if len(comment_time)>0:
comment_time=comment_time[0]
else:
comment_time=rating
rating='没有评分'
votes=each.xpath("./h3/span[@class='comment-vote']/span[1]/text()")[0]
content=each.xpath("./p/span[1]/text()")[0]
datum['nickname']=nickename
datum['watched']=watched
datum['rating']=rating
datum['comment_time']=comment_time
datum['votes']=votes
datum['content']=content
data.append(datum)
time.sleep(random.randint(5,15))
df=pd.DataFrame(data)
df.to_csv('libie.csv')
不知是否触发了豆瓣的反爬机制,当爬取到第200条评论后,后面的评论就不让爬了,再后来豆瓣网站网页都不能访问了。
有时间可以试一下Selinum模拟用户操作,不知是否能绕过豆瓣的反爬机制。现在就先用这200条短评进行分析。
评分分布
统计评分数据,使用Seaborn绘柱状图。
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("whitegrid")
sns.set_style("ticks"
plt.rcParams['font.sans-serif'] = [u'SimHei']
plt.rcParams['axes.unicode_minus'] = False
df=pd.read_csv("libie.csv",encoding="UTF-8")
star=df["rating"].value_counts()
print(star)
x=[1,2,3,4,5]
y=[3,11,62,88,25]
sns.barplot(x=x, y=y,palette="deep")
plt.title("《第一次的离别》评分分布")
plt.savefig("star.png")
plt.show()
总体而言,豆瓣影迷给这部电影的评价四星最多,其次是三星和五星,大概可知这部电影的豆瓣评分应该在7~8之间。
词云图
使用jieba分词处理评论,制作词云图。
import pandas as pd
import re
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud,ImageColorGenerator
import numpy as np
import PIL.Image as Image
df=pd.read_csv("libie.csv",encoding="UTF-8")
comments=df["content"].values.tolist()
sigList=[]
for comment in comments:
comment=comment.strip().replace(" ","")
rep = re.compile("lfd+w*|[<>/=]")
comment = rep.sub("", comment)
print(comment)
sigList.append(comment)
text="".join(sigList)
print(text)
wordlist=jieba.cut(text,cut_all=True)
word_space_split=" ".join(wordlist)
print(word_space_split)
file_path='D:\logo.jpg'
coloring=np.array(Image.open(file_path))
my_wordcloud=WordCloud(background_color="white",max_words=2000,
mask=coloring,max_font_size=70,random_state=42,scale=2,font_path="C:\Windows\Fonts\STXINGKA.TTF").generate(word_space_split)
image_colors=ImageColorGenerator(coloring)
plt.imshow(my_wordcloud.recolor(color_func=image_colors))
plt.imshow(my_wordcloud)
plt.axis("off")
plt.savefig("wordcloud.png")
plt.show()
从图中可以看出,这是一部关于新疆,关于孩子,关于离别的故事。通过镜头,摄影,自然,这可能是一部有点偏纪录片的电影。
虽然不是商业大片,但是这可能是难得一见的关于新疆的电影,从新疆孩子的视角来讲述离别和成长。
电影院开工在即,第一部电影就看他相关推荐
- Adobe Premiere 5.1教程(1)我的第一部电影
Adobe Premiere 5.1教程(1)我的第一部电影 [02-4-2 15:17] 我们运行了Premiere5.1,出现如下的界面: 简单解释: * Monitor窗口是用来监看信号 ...
- html4诞生是哪一年,世界第一部电影是哪一年诞生的?
世界第一部电影是1895年12月28日诞生的. 1895年12月28日,法国摄影师路易·卢米埃尔在巴黎卡布辛路的大咖啡馆,用活动电影机举行首次放映,获得了巨大的成功,这被认为标志着电影的诞生. 卢米埃 ...
- 爬取豆瓣最受欢迎的250部电影慢慢看
接下来咱们就来爬取豆瓣上评分最高的 250部电影 这次我们就要来使用上次说的 BeautifulSoup + Reuqests 进行爬取啦 这次 我们将爬取到的内容存放到 excel 吧 首先打开我们 ...
- 与商业经济有关的英语电影推荐:商学院学生必看的20部电影(图文)
哈佛商学院.沃顿商学院.斯坦福大学商科学生必看的20部电影,看完这20部电影,你可以去全球任何一家公司做董事长或总经理.在复杂的商业社会,你想创业,不懂经济.不懂商业.不懂人情世故.不懂法律边沿,你只 ...
- 昨天晚上在电影台看了《独自等待》
资料:影片<独自等待>剧情介绍 http://ent.sina.com.cn 2004年08月17日10:56 新浪娱乐 <独自等待>是由青年影视明星夏雨.李冰冰.龚蓓?领衔主 ...
- 影响人生的十部电影(网络流传,作者不详)
影响人生的十部电影,虽然网上传言大多虚妄,但这十部电影邀月看了九部,的确是必看.只有第七封印一直没找到,有找到的请通知邀月,不胜感激. 关键词: 十部电影 ...
- 两部电影和数不清的认识到,离开这个浏览器秕
版权所有2006埃德巴格利 怒海争锋:世界2星级(平均)的另一边 怒海争锋在拿破仑战争期间被设置,坑英国护卫舰HMS的惊喜和它的船长"幸运"杰克·奥布里在寻求捕获并摧毁了法国私掠黄 ...
- 欲了解美国人 30部中国人不得不看的美国电影
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 欲了解美 ...
- 【哈佛商学院和斯坦福要求学生必看的20部电影】中/英字幕
在复杂的商业**,你想创业,不懂经济,不懂商业,不懂人情世故,不懂法律边沿,你只有勇气,只有梦想,只有天真,只有一场空. 这20部电影可以学到的商业**必须的经济常识,以及每天都发生着的经济欺诈. 这 ...
- 看完这20部电影相当于学了经济学(投资理财必看电影)
听说看了这20部电影相当于读完清华大学经济管理学院 在复杂的商业社会,你想创业,不懂经济.不懂商业.不懂人情世故.不懂法律边沿,你只有勇气.只有梦想.只有天真,那么也就只有一场空.这20部电影都是商学 ...
最新文章
- java单循环 比较得分_java – 为什么两个单独的循环比一个快?
- 在linux上配置JDK环境变量
- getElementById取得文本框中的值
- windows下使用git管理github项目
- 一文梳理多任务学习(MMoE/PLE/DUPN/ESSM等)
- SprintBoot中JPA的使用
- ImportError: cannot import name *
- 嵌入式操作系统内核原理和开发(延时操作)
- MSSQL日期格式转换函数(使用CONVERT)
- 微信-连接一切的力量
- CRMEB多商户商城系统主要功能及技术亮点
- 多媒体开发之rtmp---rtmp client 端的实现
- Notepad++软件安装教程
- 2020书单、影单、电视剧
- fastqc检验时不能执行java_fastqc出现错误
- Python和Java哪个好学?
- qt 使用样式设置渐变色背景
- 搜索-Query理解(全)
- js-xlsx,table_to_book导出数据取消自动加工
- ”核高基“重大专项造成体制浪费就应该取消