翻页爬取豆瓣电影名称和评分

分析:

1.爬取翻页数据重点在于翻页的操作,由于每一页发送请求,解析和保存数据的方式都是一样的,因此通过找到每一页url的规律,利用for循环进行翻页即可。

2.爬取的数据为json格式,因此需要通过json()方法转成python格式进行操作

3.数据解析,在利用jsonpath解析数据时,我们可以通过响应数据放在JSON在线解析中找到名称和评分所在的节点。

4.在同一文件保存多个文本数据时,写入方式需要用a追加的方式。

本次案例以豆瓣电影的经典电影为例:

找到页面信息的url并查看响应(相应类型为json格式)

第一页的url:https://movie.douban.com/j/search_subjectstype=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0

第二页的url:https://movie.douban.com/j/search_subjectstype=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=20

由上述url可知,url的不同在于参数page_start

第一页page_start=0

第二页page_start=20

那么我们for循环的规律也就显而易见。

通过JSON在先进行数据解析,找到目标数据所在的节点。

翻页的规律和解析的方法已经找到,那么开始我们的代码

import requests

import jsonpath

import json

if __name__ == '__main__':

# 输入爬取的页数

pages = int(input('请输入爬取的页数:'))

for i in range(pages):

page_start = i*20

# 确认目标的url

url = f'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start={page_start}'

# 构造请求头参数

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'

}

# 发送请求,获取响应

response = requests.get(url,headers=headers)

# 将json数据转换成py数据

py_data = response.json()

# 提取文本中的目标数据:电影名称,电影评分

title_list = jsonpath.jsonpath(py_data,'$..title')

rate_list = jsonpath.jsonpath(py_data,'$..rate')

# 将名称和评分放进字典,保存为json文件

for i in range(len(title_list)):

dict_ = {}

dict_[title_list[i]] = rate_list[i]

# 将字典转换成json格式

json_data = json.dumps(dict_,ensure_ascii=False)+',\n'

# 保存到本地

with open('翻页豆瓣电影评分.json','a',encoding='utf-8')as f:

f.write(json_data)

爬取3页数据,每一页对应20个电影数据,那么结果数据就是60个电影的数据

原文链接:https://blog.csdn.net/coffeetogether/article/details/113979545

python翻页爬取豆瓣影评,翻页爬取豆瓣电影名称和评分相关推荐

  1. 朴素贝叶斯情感分析评分python_「豆瓣影评」从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(上) - seo实验室...

    豆瓣影评 一.爬取豆瓣影评 基本思路:先获取每个电影的评论区链接,然后依次进入其评论区爬取评论.选取10部电影,每部200条评论. 用到的包为:BeautifulSoup,urllib 这里选取的链接 ...

  2. python爬取豆瓣电影名称、评分

    最近在学习爬虫,爬取豆瓣电影Top250电影名称.评分. 不是很困难,大佬直接忽略吧~ 直接上代码了. import requests from bs4 import BeautifulSoupfor ...

  3. python爬虫获取豆瓣TOP25电影名称和评分

    import requests import lxml.html myheaders = {"User-Agent": "Mozilla/5.0 (Windows NT ...

  4. python获取并解析电影评分Top 250的电影名称、评分和电影类型,并统计分析出哪些电影类型占比居多(最终结果显示剧情类型的电影占比最多)

    一.实现目标       python编写一个简易的爬虫程序,获取电影有史以来的电影评分最高的前250部电影的名称和评分,获取的数据存储到exce文件中.之后统计分析出哪些电影类型占比居多. 二.实现 ...

  5. 爬取豆瓣电影中各种类型电影名称与评分

    一.明确需求 爬取豆瓣排行电影信息 二.发送请求 请求url地址,使用get请求,添加headers请求头,模拟浏览器请求 三.获取数据 requests.get(url=url, headers=h ...

  6. python电影评论的情感分析流浪地球_《流浪地球》影评分析(一):使用Python爬取豆瓣影评...

    本文爬虫的步骤: 使用Selenium库的webdriver进行网页元素定位和信息获取: 使用BeautifulSoup库进行数据的提取: 使用Pandas库进行数据的存储. 后台回复python爬虫 ...

  7. python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...

    个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...

  8. Python爬取猫眼电影榜单评分,以及评论

    猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...

  9. python翻页爬豆瓣影评_荐爬虫7_《隐秘的角落》豆瓣影评爬取及可视化分析

    本文源码:百度云 提取码 pra2 影评爬取 豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评.一般.差评各220条,共计630条.爬取维度为评论类型.点赞数.评分.发布日期.评论. ...

  10. python爬虫——爬取马蜂窝景点翻页文字评论

    python爬虫--爬取马蜂窝景点翻页文字评论 使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/po ...

最新文章

  1. 大数据目标检测推理管道部署
  2. Servlet 请求的转发
  3. 学习asp.net ajax 笔记(一)
  4. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言—— 1053:最大数输出
  5. Spring Boot 专栏全栈开发实战
  6. 设计模式之_工厂系列_01
  7. Linux系统编程19:基础IO之了解Linux中的标准输入和输出以及相关的系统调用接口(如write,read等)
  8. Linux内核协议栈分析之tcp/ip初始化——tcp/ip通信并不神秘(2)
  9. java类型之间的转换_java类型之间的转换
  10. JAVA:泛型通配符T,E,K,V区别,T以及Class,Class的区别
  11. 智慧酒店:锐捷网络打造的完美酒店
  12. 【计算机三级数据库技术】三级数据库技术应用题集锦
  13. html自定义文本框,JavaScript自定义文本框光标
  14. 腾讯地图如何根据经纬度获取地址
  15. android 转场动画 监听,Android 中的转场动画及兼容处理
  16. 互联网音乐告别版权战,音乐社区或成新风口?
  17. LCT学习笔记/基本思路
  18. 如何挖掘客户的潜在需求?
  19. 通过搭建MySQL掌握k8s(Kubernetes)重要概念(上):网络与持久卷
  20. 华威国王曼大爱丁堡计算机专业,爱丁堡、曼大、KCL和华威大学的金融专业,该选哪一个?...

热门文章

  1. CVE-2022-1292漏洞修复
  2. Jupyter Notebook又一懒人神器,拖拽生成Python代码!
  3. 合泰单片机点灯c语言程序,ht66f018合泰单片机暖风机的C语言源程序
  4. c语言的绝对值怎么表示,C语言中  绝对值  怎么表示?
  5. c语言绝对值函数作用,C语言中有没有求绝对值的函数啊?谢谢!
  6. mysql键值相同_mysql什么是键值重复
  7. 随机生成小球(HTML5)
  8. HR最不认同的5大跳槽理由排行榜
  9. 学生用计算机的感叹号在哪,电脑网络黄三角感叹号怎么解决
  10. 基于Java实现的迷宫小游戏