原标题:Python分析18万条《八佰》影评,看看观众怎么说?

最近《八佰》这部电影比较火,上映仅15天就已斩获22亿票房。对于沉寂了半年、影院上座率仍限定在50%的电影市场而言,这样的成绩出人意料。

从猫眼电影官网可以看到,《八佰》获得了9.2分的高口碑。一向好奇的我产生了一些疑惑,这些人到底在评论些啥?哪些地方的人评论最多?针对不同演员角色的评论内容有什么不同?

于是,用Python采集了《八佰》18万条观众影评并做可视化分析,数据采集区间为2020年8月21日9点至2020年8月30日24点。

数据获取

猫眼电影是简单的动态网页,数据格式为json,通过解析接口的方式即可轻松获取。

defparse_page(html):

try:

data = json.loads(html)[ 'cmts'] # 将str转换为json

#print(data)

comments = []

foritem indata:

comment = {

'id': item[ 'id'],

'nickName': item[ 'nickName'],

'cityName': item[ 'cityName'] if'cityName'initem else'', # 处理cityName不存在的情况

'content': item[ 'content'].replace( 'n', ' ', 10), # 处理评论内容换行的情况

'score': item[ 'score'],

'startTime': item[ 'startTime']

}

comments.append(comment)

returncomments

exceptException ase:

pass

数据清洗 读取影评数据

importpandas aspd

importnumpy asnp

data=[]

withopen( 'comments.txt', 'r',encoding= 'utf-8-sig') asf_input:

forline inf_input:

data.append(list(line.strip.split( ',')))

data

转为DataFrame并添加列名

df = pd.DataFrame(data).iloc[:, 0: 6]

df.columns = [ '观众ID', '观众昵称', '城市', '评论内容', '评分', '评论时间']

删除重复记录和缺失值

df = df.drop_duplicates

df = df.dropna

预览并保存

df.sample( 5)

df.to_csv( "八佰.csv",index= False,encoding= "utf_8_sig")

整体评论词云

对18万条影评内容进行分词,并将频率最高的500个词抽离出来制作词云图,我们发现广大观众对《八佰》这部战争题材电影表现出强烈的情感。除了 好看、 不错这些赞美之词以外,更多的是 震撼、 感人、 历史、 勿忘国耻等代表着强烈民族色彩的词。

评论类型分布

超过90%的好评率,20亿+的票房不是没有道理。

差评抽样

差评虽不多,但集中在对《八佰》结局的轰炸。

评论数据量TOP10城市

成都人对《八佰》评论热情高涨,超过北上广深等大城市。

相关演员提及

观众评论中提及欧豪和端午的次数最多,不知是因为演技还是颜值?

关于端午的评论

关于老算盘的评论

关于羊拐的评论

-----------------

希望系统、快速学习

数据抓取与文本挖掘知识

可以学习数据分析专家@文彤老师的

《跟文彤老师学文本抓取与挖掘》系列视频课程

系列课程包含以下三门课程

小白零编程网络爬虫实战

Python数据分析--玩转Pandas

Python数据分析--玩转文本挖掘

以上顺序也是学习的建议顺序

课程提供讲义(含代码)与数据供练习

学习过程有问题可加Q群与老师交流讨论

10.15~10.18期间参加课程学习

可享受5折优惠

只有四天喔,双11也没有这优惠力度

优惠价: 238.50元返回搜狐,查看更多

责任编辑:

深圳python如何评价_Python分析18万条《八佰》影评,看看观众怎么说?相关推荐

  1. 讲python讲得好的评价_分析20万条弹幕告诉你,8.9分的高分剧《隐秘的角落》到底好看在哪儿?...

    CDA数据分析师 出品作者:Mika 数据:真达 后期:泽龙 Show me data,用数据说话 今天我们聊一聊 <隐秘的角落> 点击下方视频,先睹为快: 最近这部<隐秘的角落&g ...

  2. 使用Python抓取猫眼近10万条评论并分析

    <一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...

  3. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?

    视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...

  4. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?...

    黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的. 目前<一出好戏>在猫眼上已经获得近60万个评价,评分为 ...

  5. 北京房租大涨?Python 6个维度,数万条数据帮你揭秘

    昨天还幻想海边别墅的年轻人,今天可能开始对房租绝望了. 8月初,有网友在"水木论坛"发帖控诉长租公寓加价抢房引起关注.据说,一名业主打算出租自己位于天通苑的三居室,预期租金7500 ...

  6. Python 6个维度,数万条数据帮你揭秘房租大涨!

    最近休息了一段时间,现在开启更新模式! 8月初,有网友在"水木论坛"发帖控诉长租公寓加价抢房引起关注.据说,一名业主打算出租自己位于天通苑的三居室,预期租金7500元/月,结果被二 ...

  7. Python 爬虫实战:分析豆瓣中最新电影的影评

    Python 爬虫实战:分析豆瓣中最新电影的影评 接触python时间不久,做些小项目来练练手.前几天看了<战狼2>,发现它在最新上映的电影里面是排行第一的,如下图所示.准备把豆瓣上对它的 ...

  8. python的歌曲评论数据分析_用Python分析44万条数据,揭秘如何成为网易云音乐评论区的网红段子手...

    有个段子讲"十年文案老司机,不如网易评论区,网易文豪遍地走,评论全部单身狗",网易云音乐的评论区也一直都是各类文案大神的聚集地. 那么我们普通用户到底如何成为网易云音乐评论里的热评 ...

  9. Python 分析 9 万条数据告诉你复仇者联盟谁才是绝对 C 位!

    <复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即: 漫威宇宙,其实就讲了一件事情.整个宇宙就好比一个项目组.其中有一群叫作美国队长.钢铁侠.惊奇队长.浩克.索尔等人在维护 ...

最新文章

  1. 易遭黑客利用,慎用免费的网站SSL证书!!!
  2. Django Channels 入门指南
  3. STM32通用定时器(原理、结构体、库函数、定时器中断每秒闪烁一次灯) —— 时钟源、分频值、重装载值
  4. 启动ipython内核发生错误_ipython3启动
  5. ppt讲解中的过渡_PPT黑科技,只用一张图做出3D动画
  6. 实现高性能稳定的socket tcp通讯经验分享
  7. Python高性能HTTP客户端库requests的使用
  8. mysql按年创建分区表,增加分区表,删除分区表,实战练习
  9. 没有躲过的坑--0xC0000005: 读取位置 xxx时发生访问冲突
  10. 数据分析的工作目标是什么
  11. python中result的用法_python中result的用法
  12. manjaro搭建java_Manjaro配置JDK
  13. 点线面的意义_【干货】设计中的点线面到底有什么用?
  14. 【大四上学期】过程控制系统课程笔记
  15. Android5.0录屏
  16. c语言sscanf函数和结构体,C语言sprintf与sscanf函数 -电脑资料
  17. 小程序授权头像昵称改为头像昵称填写能力详解
  18. cumber + selenium +java自动化测试
  19. Java开发3年应该掌握的小知识(下)
  20. Oracle 11g Release 2 RAC集群系统在Solaris10_x86_64和Openfiler网络共享存储上的安装 (第2部分)...

热门文章

  1. 强化学习笔记 DDPG (Deep Deterministic Policy Gradient)
  2. 文巾解题 881. 救生艇
  3. 文计笔记2: 计算机硬件知识
  4. pytorch笔记:Dataloader
  5. Selenium爬携程酒店评论+jieba数据分析实战
  6. android 二次点击退出,android返回二次退出
  7. mysql 造1亿条记录的单表--大数据表
  8. Apache Shiro Architecture--官方文档
  9. 非对称加密算法RSA--转
  10. 元宇宙大比拼:英伟达Nvidia,Facebook,iwemeta