python翻页爬取豆瓣影评,翻页爬取豆瓣电影名称和评分

翻页爬取豆瓣电影名称和评分

分析：

1.爬取翻页数据重点在于翻页的操作，由于每一页发送请求，解析和保存数据的方式都是一样的，因此通过找到每一页url的规律，利用for循环进行翻页即可。

2.爬取的数据为json格式，因此需要通过json()方法转成python格式进行操作

3.数据解析，在利用jsonpath解析数据时，我们可以通过响应数据放在JSON在线解析中找到名称和评分所在的节点。

4.在同一文件保存多个文本数据时，写入方式需要用a追加的方式。

本次案例以豆瓣电影的经典电影为例：

找到页面信息的url并查看响应(相应类型为json格式)

第一页的url：https://movie.douban.com/j/search_subjectstype=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0

第二页的url：https://movie.douban.com/j/search_subjectstype=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=20

由上述url可知，url的不同在于参数page_start

第一页page_start=0

第二页page_start=20

那么我们for循环的规律也就显而易见。

…

通过JSON在先进行数据解析，找到目标数据所在的节点。

翻页的规律和解析的方法已经找到，那么开始我们的代码

import requests

import jsonpath

import json

if __name__ == '__main__':

# 输入爬取的页数

pages = int(input('请输入爬取的页数：'))

for i in range(pages):

page_start = i*20

# 确认目标的url

url = f'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start={page_start}'

# 构造请求头参数

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'

}

# 发送请求，获取响应

response = requests.get(url,headers=headers)

# 将json数据转换成py数据

py_data = response.json()

# 提取文本中的目标数据：电影名称,电影评分

title_list = jsonpath.jsonpath(py_data,'$..title')

rate_list = jsonpath.jsonpath(py_data,'$..rate')

# 将名称和评分放进字典，保存为json文件

for i in range(len(title_list)):

dict_ = {}

dict_[title_list[i]] = rate_list[i]

# 将字典转换成json格式

json_data = json.dumps(dict_,ensure_ascii=False)+',\n'

# 保存到本地

with open('翻页豆瓣电影评分.json','a',encoding='utf-8')as f:

f.write(json_data)

爬取3页数据，每一页对应20个电影数据，那么结果数据就是60个电影的数据

原文链接:https://blog.csdn.net/coffeetogether/article/details/113979545

python翻页爬取豆瓣影评,翻页爬取豆瓣电影名称和评分相关推荐

朴素贝叶斯情感分析评分python_「豆瓣影评」从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(上) - seo实验室...
豆瓣影评一.爬取豆瓣影评基本思路:先获取每个电影的评论区链接,然后依次进入其评论区爬取评论.选取10部电影,每部200条评论. 用到的包为:BeautifulSoup,urllib 这里选取的链接 ...
python爬取豆瓣电影名称、评分
最近在学习爬虫,爬取豆瓣电影Top250电影名称.评分. 不是很困难,大佬直接忽略吧~ 直接上代码了. import requests from bs4 import BeautifulSoupfor ...
python爬虫获取豆瓣TOP25电影名称和评分
import requests import lxml.html myheaders = {"User-Agent": "Mozilla/5.0 (Windows NT ...
python获取并解析电影评分Top 250的电影名称、评分和电影类型，并统计分析出哪些电影类型占比居多（最终结果显示剧情类型的电影占比最多）
一.实现目标 python编写一个简易的爬虫程序,获取电影有史以来的电影评分最高的前250部电影的名称和评分,获取的数据存储到exce文件中.之后统计分析出哪些电影类型占比居多. 二.实现 ...
爬取豆瓣电影中各种类型电影名称与评分
一.明确需求爬取豆瓣排行电影信息二.发送请求请求url地址,使用get请求,添加headers请求头,模拟浏览器请求三.获取数据 requests.get(url=url, headers=h ...
python电影评论的情感分析流浪地球_《流浪地球》影评分析（一）：使用Python爬取豆瓣影评...
本文爬虫的步骤: 使用Selenium库的webdriver进行网页元素定位和信息获取: 使用BeautifulSoup库进行数据的提取: 使用Pandas库进行数据的存储. 后台回复python爬虫 ...
python 豆瓣评论数据分析_Python爬虫实战案例：豆瓣影评大数据分析报告之网页分析...
个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...
Python爬取猫眼电影榜单评分，以及评论
猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...
python翻页爬豆瓣影评_荐爬虫7_《隐秘的角落》豆瓣影评爬取及可视化分析
本文源码:百度云提取码 pra2 影评爬取豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评.一般.差评各220条,共计630条.爬取维度为评论类型.点赞数.评分.发布日期.评论. ...
python爬虫——爬取马蜂窝景点翻页文字评论
python爬虫--爬取马蜂窝景点翻页文字评论使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/po ...

python翻页爬取豆瓣影评,翻页爬取豆瓣电影名称和评分

python翻页爬取豆瓣影评,翻页爬取豆瓣电影名称和评分相关推荐

最新文章

热门文章