爬取影评来分析电影《鹰猎长空》评论是如何的
很多时候从猫眼电影官网可以看到一些大热电影的高评论数和高评分,这些人到底在评论些啥?哪些地方的人评论最多?针对不同演员角色的评论内容有什么不同?面对即将问世的《鹰猎长空》,整理基本的数据获取技巧如下。
数据获取
猫眼电影是简单的动态网页,数据格式为json,通过解析接口的方式即可轻松获取。
def parse_page(html):try:data = json.loads(html)['cmts'] # 将str转换为json#print(data)comments = []for item in data:comment = {'id': item['id'],'nickName': item['nickName'],'cityName': item['cityName'] if 'cityName' in item else '', # 处理cityName不存在的情况'content': item['content'].replace('\n', ' ', 10), # 处理评论内容换行的情况'score': item['score'],'startTime': item['startTime']}comments.append(comment)return commentsexcept Exception as e:pass
数据清洗
读取影评数据
import pandas as pd
import numpy as np
data=[]
with open('comments.txt', 'r',encoding='utf-8-sig') as f_input:for line in f_input:data.append(list(line.strip().split(',')))
data
转为DataFrame并添加列名
df = pd.DataFrame(data).iloc[:, 0:6]
df.columns = ['观众ID','观众昵称','城市','评论内容','评分','评论时间']
删除重复记录和缺失值
df = df.drop_duplicates()
df = df.dropna()
预览并保存
df.sample(5)
df.to_csv("八佰.csv",index=False,encoding="utf_8_sig")
爬取影评来分析电影《鹰猎长空》评论是如何的相关推荐
- 爬取影评来分析电影《鹰猎长空》
很多时候从猫眼电影官网可以看到一些大热电影的高评论数和高评分,这些人到底在评论些啥?哪些地方的人评论最多?针对不同演员角色的评论内容有什么不同?面对即将问世的<鹰猎长空>,整理基本的数据获 ...
- Python爬虫——豆瓣评分8分以上电影爬取-存储-可视化分析
本文就豆瓣8分以上电影进行爬取-存储-可视化分析. 不足之处欢迎在评论区指出讨论. 当然,如果觉得不错,要帮助的话,还请点个赞. 目录 数据爬取 分析网页 动态网页和静态网页 获取信息 获得二级信息 ...
- python爬猫眼电影影评,Python系列爬虫之爬取并简单分析猫眼电影影评
前言 今天给大家介绍利用Python爬取并简单分析猫眼电影影评.让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: pyecharts模块: jieba模 ...
- 爬b站(bilibili)电影《鹰猎长空》短评
很多时候从B站可以看到一些大热电影的高评论数和高评分,这些人到底在评论些啥?哪些地方的人评论最多?针对不同演员角色的评论内容有什么不同?面对即将问世的<鹰猎长空>. 需要用到的库有:req ...
- Python爬取影评并进行情感分析和数据可视化
Python爬取影评并进行情感分析和数据可视化 文章目录 Python爬取影评并进行情感分析和数据可视化 一.引言 二.使用requests+BeautifulSoup进行影评的爬取 1.分析界面元素 ...
- python爬取豆瓣短评_爬取并简单分析豆瓣电影短评
导语 利用Python爬取并简单分析豆瓣电影短评. 说起来挺逗的,去年爬豆瓣短评的时候还是可以爬个几万条数据的,昨天我还想着终于可以起个唬人的标题了,什么爬取了xxx电影的xxx万条数据. 于是昨晚写 ...
- 爬虫:b站(bilibili)电影《鹰猎长空》短评
很多时候从B站可以看到一些大热电影的高评论数和高评分,这些人到底在评论些啥?哪些地方的人评论最多?针对不同演员角色的评论内容有什么不同?面对即将问世的<鹰猎长空>. 需要用到的库有:req ...
- 哪吒票房逼近40亿,用python爬取哪吒短评分析
目录 前言 分析 具体步骤 登录 爬取与存储 可视化分析 结语 前言 暑期档电影惨淡,但随着哪吒爆红开拓了新局面.这也是国产动画的首次爆红.在哪吒刚出,笔者以为最多10亿就算不错的了.没想过仅过了几天 ...
- html登录界面设计代码_Python登录豆瓣并爬取影评
Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自定义设置.主题等) 浏览器行为跟踪(如跟踪分 ...
最新文章
- 一文看懂5G和AI融合的5个要点
- 理解 IEnumerable 与 IEnumerator
- 古巴雪茄高希霸世纪1.2.3.4.5.6.半世纪7款雪茄的区别?
- 11函数的应用(函数名=变量)
- mysql 实验_实验二 MySQL 实验.doc
- Mybatis报错: Invalid bound statement (not found)...
- 滴水穿石--mysql添加授权用户命令
- 线上安全大会还能这么玩 ISC 2020首创“3D立体云展馆”
- 平安银行薪资职级表_程序员工资有多高?看看阿里、腾讯、百度这些大厂薪资和职级一览...
- vivo+android+root,vivo手机怎么获取root权限?vivo手机一键ROOT教程
- 提示非标准语法;请使用 ““ 来创建指向成员的指针
- 联想服务器怎么接显示器,联想笔记本连接显示器 联想笔记本外接显示器怎么设置...
- 全球及中国冶金工业市场产量分析及投资战略决策报告2021版
- 由于系统缓冲区空间不足或队列已满,不能执行套接字上的操作
- (转)旅游拍照必读:10个经典人像摄影案例@『国家地理』
- Typora 自定义快捷键
- 【机器学习】李宏毅——自监督式学习
- 自己的web前端工程师之路的感慨与规划
- MATLAB 数学软件
- Linux中etc下shadow文件详解