python翻页爬取豆瓣影评,翻页爬取豆瓣电影名称和评分
翻页爬取豆瓣电影名称和评分
分析:
1.爬取翻页数据重点在于翻页的操作,由于每一页发送请求,解析和保存数据的方式都是一样的,因此通过找到每一页url的规律,利用for循环进行翻页即可。
2.爬取的数据为json格式,因此需要通过json()方法转成python格式进行操作
3.数据解析,在利用jsonpath解析数据时,我们可以通过响应数据放在JSON在线解析中找到名称和评分所在的节点。
4.在同一文件保存多个文本数据时,写入方式需要用a追加的方式。
本次案例以豆瓣电影的经典电影为例:
找到页面信息的url并查看响应(相应类型为json格式)
第一页的url:https://movie.douban.com/j/search_subjectstype=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0
第二页的url:https://movie.douban.com/j/search_subjectstype=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=20
由上述url可知,url的不同在于参数page_start
第一页page_start=0
第二页page_start=20
那么我们for循环的规律也就显而易见。
…
通过JSON在先进行数据解析,找到目标数据所在的节点。
翻页的规律和解析的方法已经找到,那么开始我们的代码
import requests
import jsonpath
import json
if __name__ == '__main__':
# 输入爬取的页数
pages = int(input('请输入爬取的页数:'))
for i in range(pages):
page_start = i*20
# 确认目标的url
url = f'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start={page_start}'
# 构造请求头参数
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}
# 发送请求,获取响应
response = requests.get(url,headers=headers)
# 将json数据转换成py数据
py_data = response.json()
# 提取文本中的目标数据:电影名称,电影评分
title_list = jsonpath.jsonpath(py_data,'$..title')
rate_list = jsonpath.jsonpath(py_data,'$..rate')
# 将名称和评分放进字典,保存为json文件
for i in range(len(title_list)):
dict_ = {}
dict_[title_list[i]] = rate_list[i]
# 将字典转换成json格式
json_data = json.dumps(dict_,ensure_ascii=False)+',\n'
# 保存到本地
with open('翻页豆瓣电影评分.json','a',encoding='utf-8')as f:
f.write(json_data)
爬取3页数据,每一页对应20个电影数据,那么结果数据就是60个电影的数据
原文链接:https://blog.csdn.net/coffeetogether/article/details/113979545
python翻页爬取豆瓣影评,翻页爬取豆瓣电影名称和评分相关推荐
- 朴素贝叶斯情感分析评分python_「豆瓣影评」从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(上) - seo实验室...
豆瓣影评 一.爬取豆瓣影评 基本思路:先获取每个电影的评论区链接,然后依次进入其评论区爬取评论.选取10部电影,每部200条评论. 用到的包为:BeautifulSoup,urllib 这里选取的链接 ...
- python爬取豆瓣电影名称、评分
最近在学习爬虫,爬取豆瓣电影Top250电影名称.评分. 不是很困难,大佬直接忽略吧~ 直接上代码了. import requests from bs4 import BeautifulSoupfor ...
- python爬虫获取豆瓣TOP25电影名称和评分
import requests import lxml.html myheaders = {"User-Agent": "Mozilla/5.0 (Windows NT ...
- python获取并解析电影评分Top 250的电影名称、评分和电影类型,并统计分析出哪些电影类型占比居多(最终结果显示剧情类型的电影占比最多)
一.实现目标 python编写一个简易的爬虫程序,获取电影有史以来的电影评分最高的前250部电影的名称和评分,获取的数据存储到exce文件中.之后统计分析出哪些电影类型占比居多. 二.实现 ...
- 爬取豆瓣电影中各种类型电影名称与评分
一.明确需求 爬取豆瓣排行电影信息 二.发送请求 请求url地址,使用get请求,添加headers请求头,模拟浏览器请求 三.获取数据 requests.get(url=url, headers=h ...
- python电影评论的情感分析流浪地球_《流浪地球》影评分析(一):使用Python爬取豆瓣影评...
本文爬虫的步骤: 使用Selenium库的webdriver进行网页元素定位和信息获取: 使用BeautifulSoup库进行数据的提取: 使用Pandas库进行数据的存储. 后台回复python爬虫 ...
- python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...
个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...
- Python爬取猫眼电影榜单评分,以及评论
猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...
- python翻页爬豆瓣影评_荐爬虫7_《隐秘的角落》豆瓣影评爬取及可视化分析
本文源码:百度云 提取码 pra2 影评爬取 豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评.一般.差评各220条,共计630条.爬取维度为评论类型.点赞数.评分.发布日期.评论. ...
- python爬虫——爬取马蜂窝景点翻页文字评论
python爬虫--爬取马蜂窝景点翻页文字评论 使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/po ...
最新文章
- 大数据目标检测推理管道部署
- Servlet 请求的转发
- 学习asp.net ajax 笔记(一)
- 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言—— 1053:最大数输出
- Spring Boot 专栏全栈开发实战
- 设计模式之_工厂系列_01
- Linux系统编程19:基础IO之了解Linux中的标准输入和输出以及相关的系统调用接口(如write,read等)
- Linux内核协议栈分析之tcp/ip初始化——tcp/ip通信并不神秘(2)
- java类型之间的转换_java类型之间的转换
- JAVA:泛型通配符T,E,K,V区别,T以及Class,Class的区别
- 智慧酒店:锐捷网络打造的完美酒店
- 【计算机三级数据库技术】三级数据库技术应用题集锦
- html自定义文本框,JavaScript自定义文本框光标
- 腾讯地图如何根据经纬度获取地址
- android 转场动画 监听,Android 中的转场动画及兼容处理
- 互联网音乐告别版权战,音乐社区或成新风口?
- LCT学习笔记/基本思路
- 如何挖掘客户的潜在需求?
- 通过搭建MySQL掌握k8s(Kubernetes)重要概念(上):网络与持久卷
- 华威国王曼大爱丁堡计算机专业,爱丁堡、曼大、KCL和华威大学的金融专业,该选哪一个?...