深圳python如何评价_Python分析18万条《八佰》影评,看看观众怎么说?
原标题:Python分析18万条《八佰》影评,看看观众怎么说?
最近《八佰》这部电影比较火,上映仅15天就已斩获22亿票房。对于沉寂了半年、影院上座率仍限定在50%的电影市场而言,这样的成绩出人意料。
从猫眼电影官网可以看到,《八佰》获得了9.2分的高口碑。一向好奇的我产生了一些疑惑,这些人到底在评论些啥?哪些地方的人评论最多?针对不同演员角色的评论内容有什么不同?
于是,用Python采集了《八佰》18万条观众影评并做可视化分析,数据采集区间为2020年8月21日9点至2020年8月30日24点。
数据获取
猫眼电影是简单的动态网页,数据格式为json,通过解析接口的方式即可轻松获取。
defparse_page(html):
try:
data = json.loads(html)[ 'cmts'] # 将str转换为json
#print(data)
comments = []
foritem indata:
comment = {
'id': item[ 'id'],
'nickName': item[ 'nickName'],
'cityName': item[ 'cityName'] if'cityName'initem else'', # 处理cityName不存在的情况
'content': item[ 'content'].replace( 'n', ' ', 10), # 处理评论内容换行的情况
'score': item[ 'score'],
'startTime': item[ 'startTime']
}
comments.append(comment)
returncomments
exceptException ase:
pass
数据清洗 读取影评数据
importpandas aspd
importnumpy asnp
data=[]
withopen( 'comments.txt', 'r',encoding= 'utf-8-sig') asf_input:
forline inf_input:
data.append(list(line.strip.split( ',')))
data
转为DataFrame并添加列名
df = pd.DataFrame(data).iloc[:, 0: 6]
df.columns = [ '观众ID', '观众昵称', '城市', '评论内容', '评分', '评论时间']
删除重复记录和缺失值
df = df.drop_duplicates
df = df.dropna
预览并保存
df.sample( 5)
df.to_csv( "八佰.csv",index= False,encoding= "utf_8_sig")
整体评论词云
对18万条影评内容进行分词,并将频率最高的500个词抽离出来制作词云图,我们发现广大观众对《八佰》这部战争题材电影表现出强烈的情感。除了 好看、 不错这些赞美之词以外,更多的是 震撼、 感人、 历史、 勿忘国耻等代表着强烈民族色彩的词。
评论类型分布
超过90%的好评率,20亿+的票房不是没有道理。
差评抽样
差评虽不多,但集中在对《八佰》结局的轰炸。
评论数据量TOP10城市
成都人对《八佰》评论热情高涨,超过北上广深等大城市。
相关演员提及
观众评论中提及欧豪和端午的次数最多,不知是因为演技还是颜值?
关于端午的评论
关于老算盘的评论
关于羊拐的评论
-----------------
希望系统、快速学习
数据抓取与文本挖掘知识
可以学习数据分析专家@文彤老师的
《跟文彤老师学文本抓取与挖掘》系列视频课程
系列课程包含以下三门课程
小白零编程网络爬虫实战
Python数据分析--玩转Pandas
Python数据分析--玩转文本挖掘
以上顺序也是学习的建议顺序
课程提供讲义(含代码)与数据供练习
学习过程有问题可加Q群与老师交流讨论
10.15~10.18期间参加课程学习
可享受5折优惠
只有四天喔,双11也没有这优惠力度
优惠价: 238.50元返回搜狐,查看更多
责任编辑:
深圳python如何评价_Python分析18万条《八佰》影评,看看观众怎么说?相关推荐
- 讲python讲得好的评价_分析20万条弹幕告诉你,8.9分的高分剧《隐秘的角落》到底好看在哪儿?...
CDA数据分析师 出品作者:Mika 数据:真达 后期:泽龙 Show me data,用数据说话 今天我们聊一聊 <隐秘的角落> 点击下方视频,先睹为快: 最近这部<隐秘的角落&g ...
- 使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?
视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?...
黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的. 目前<一出好戏>在猫眼上已经获得近60万个评价,评分为 ...
- 北京房租大涨?Python 6个维度,数万条数据帮你揭秘
昨天还幻想海边别墅的年轻人,今天可能开始对房租绝望了. 8月初,有网友在"水木论坛"发帖控诉长租公寓加价抢房引起关注.据说,一名业主打算出租自己位于天通苑的三居室,预期租金7500 ...
- Python 6个维度,数万条数据帮你揭秘房租大涨!
最近休息了一段时间,现在开启更新模式! 8月初,有网友在"水木论坛"发帖控诉长租公寓加价抢房引起关注.据说,一名业主打算出租自己位于天通苑的三居室,预期租金7500元/月,结果被二 ...
- Python 爬虫实战:分析豆瓣中最新电影的影评
Python 爬虫实战:分析豆瓣中最新电影的影评 接触python时间不久,做些小项目来练练手.前几天看了<战狼2>,发现它在最新上映的电影里面是排行第一的,如下图所示.准备把豆瓣上对它的 ...
- python的歌曲评论数据分析_用Python分析44万条数据,揭秘如何成为网易云音乐评论区的网红段子手...
有个段子讲"十年文案老司机,不如网易评论区,网易文豪遍地走,评论全部单身狗",网易云音乐的评论区也一直都是各类文案大神的聚集地. 那么我们普通用户到底如何成为网易云音乐评论里的热评 ...
- Python 分析 9 万条数据告诉你复仇者联盟谁才是绝对 C 位!
<复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即: 漫威宇宙,其实就讲了一件事情.整个宇宙就好比一个项目组.其中有一群叫作美国队长.钢铁侠.惊奇队长.浩克.索尔等人在维护 ...
最新文章
- 易遭黑客利用,慎用免费的网站SSL证书!!!
- Django Channels 入门指南
- STM32通用定时器(原理、结构体、库函数、定时器中断每秒闪烁一次灯) —— 时钟源、分频值、重装载值
- 启动ipython内核发生错误_ipython3启动
- ppt讲解中的过渡_PPT黑科技,只用一张图做出3D动画
- 实现高性能稳定的socket tcp通讯经验分享
- Python高性能HTTP客户端库requests的使用
- mysql按年创建分区表,增加分区表,删除分区表,实战练习
- 没有躲过的坑--0xC0000005: 读取位置 xxx时发生访问冲突
- 数据分析的工作目标是什么
- python中result的用法_python中result的用法
- manjaro搭建java_Manjaro配置JDK
- 点线面的意义_【干货】设计中的点线面到底有什么用?
- 【大四上学期】过程控制系统课程笔记
- Android5.0录屏
- c语言sscanf函数和结构体,C语言sprintf与sscanf函数 -电脑资料
- 小程序授权头像昵称改为头像昵称填写能力详解
- cumber + selenium +java自动化测试
- Java开发3年应该掌握的小知识(下)
- Oracle 11g Release 2 RAC集群系统在Solaris10_x86_64和Openfiler网络共享存储上的安装 (第2部分)...