详细版本见个人博客:Python如何爬取不确定页数的网页


一、问题分析

我们通常遇到的网站页数展现形式有这么几种:

  • 第一种是直观地显示所有页数,显示在页面上。
  • 第二种是不直观显示网页总页数,需要抓包才可以看到,一般来说会有一个totalPage参数。
  • 第三种是不知道具体有多少页的网页。

对于,前两种形式的网页,爬取方法非常简单,使用 For 循环从首页爬到尾页就行了,第三种形式则不适用,因为不知道尾页的页数,所以循环到哪一页结束无法判断。

二、解决方案

这里有两种解决方式:

  • 第一种方式:使用 For 循环,尾页的页数设置一个较大的参数,足够循环爬完所有页面。
  • 第二种方法:使用 While 循环,可以结合 break 语句,也可以设起始循环判断条件为 True,从头开始循环爬取直到爬完最后一页,然后更改判断条件为 False 跳出循环,结束爬取。

三、实际案例——scrapy实现

1、For循环实现

Scrapy 中使用 For 循环递归爬取的思路非常简单,即先批量生成所有请求的 URL,包括最后无效的 URL,后续在 parse 方法中添加 if 判断过滤无效请求。

由于 Scrapy 依赖于Twisted框架,采用的是异步请求处理方式,可以边发送请求边解析内容,不会被阻塞,但是这种方法会发送很多无用请求。

def start_requests(self):url_lists = []for i in range(0,500):req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20*i,url_genres = self.genres[0]))url_lists.append(req)return url_listsdef parse(self, response):# 判断该页是否有内容,数值定为20是因为无内容时长度是11if len(response.body) >= 20:movie = IDItem()dicts = json.loads(response.body)data_list = dicts['data']for data in data_list:movie['ids'] = data['id']#...yield movie

2、While循环实现

While 循环的思路是先从头开始爬取,使用parse()方法进行解析,然后递增页数构造下一页的URL请求,再循环解析,直到爬取完最后一页。这样不会发送无用的请求。但是难以利用scrapy异步的优势。这里构造下一页请求时需要利用parse()方法中的参数,可以使用meta方法来传递参数。

def start_requests(self):url_lists = []for i in range(len(self.genres)):dict_meta = {'tag_meta':self.tags[0],'page':0,'genre_meta':self.genres[i]}req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20*0,url_genres = self.genres[i]),meta = dict_meta)url_lists.append(req)return url_listsdef parse(self, response):# 判断该页是否爬完,数值定为20是因为无内容时长度是11if len(response.body) >= 20:movie = IDItem()dicts = json.loads(response.body)data_list = dicts['data']for data in data_list:movie['ids'] = data['id']#...yield movie# while循环构造url递归爬下一页tag_meta = response.meta['tag_meta']genre_meta = response.meta['genre_meta']page = response.meta['page']page += 1dict_meta = {'tag_meta':tag_meta,'page':page,'genre_meta':genre_meta}yield scrapy.Request(self.url.format(url_tags = tag_meta,url_start = 20*page,url_genres = genre_meta),callback=self.parse,meta=dict_meta)

参考:Python For 和 While 循环爬取不确定页数的网页


详细版本见个人博客:Python如何爬取不确定页数的网页

Python如何爬取不确定页数的网页相关推荐

  1. python:爬取租房100页数据

    python:爬取贝壳租房100页数据 import requests from bs4 import BeautifulSoup import csv,redef get_one_page(page ...

  2. python循环爬取页面_使用for或while循环来处理处理不确定页数的网页数据爬取

    本文转载自以下网站: Python For 和 While 循环爬取不确定页数的网页  https://www.makcyun.top/web_scraping_withpython16.html 需 ...

  3. python爬虫爬取实习僧岗位信息并存入excel数据表中

    欢迎访问我的个人网站http://liubofeng.com 网页分析 博主在本博客中爬取的是数据分析岗位. 进入网站首页https://www.shixiseng.com/搜索数据分析,F12审查元 ...

  4. Python入门--爬取淘宝评论并生成词云

    Python爬取淘宝评论并生成词云 最新修改于2021/04/01 所需相关Python第三方库(目前最新版本即可) 推荐使用Anaconda,其使用十分方便.快捷. requests库 json库 ...

  5. Python爬虫-爬取wallhaven壁纸

    Python爬虫-爬取wallhaven壁纸 前言 可行性分析 功能介绍 效果展示 基本思路 1.获取每页(1页24张)壁纸的url 2.获取每张壁纸缩略图的url 3.获取壁纸原图下载的url 4. ...

  6. python selenium爬取QQ空间说说

    准备工作 安装selenium, pyquery, json模块. 使用的是火狐浏览器,所以还要安装geckodriver, 下载好后,把geckodirver.exe文件放在python.exe同一 ...

  7. Python爬虫 --爬取京东酒店旅行信息

    在之前学习爬虫的过程中,发现这个网址拿来练习是非常的舒服.现在将这个爬取的过程写下来分享给大家. 网址:https://hotel.jd.com/list.html?cityId=36&cit ...

  8. python批量爬取QQ音乐歌手的歌曲等信息

    import requests,openpyxl #导入模块 wb=openpyxl.Workbook() #创建工作薄 sheet=wb.active #获取工作薄的活动表 sheet.title= ...

  9. 用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载

    用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...

最新文章

  1. excel甘特图模板_类似这样的甘特图是怎么做的?
  2. Nginx热部署详解
  3. dbcp2和dbcp 1.4在API层面的差异
  4. 详解ABBYY FineReader 12扫描亮度设置
  5. LaTeX技巧:如何高效地将LaTeX代码转为Word公式
  6. 关于SQL Server中索引使用及维护简介
  7. BZOJ3526[Poi2014]Card——线段树合并
  8. 浅析Spring事务传播行为和隔离级别
  9. 高并发编程系列:NIO、BIO、AIO的区别,及NIO的应用和框架选型
  10. IDEA报错Target Level '1.5' Is Incompatible With Source Level '1.8'
  11. 流放之路材质过滤怎么设置_用一张漫反射贴图可以做写实材质吗?
  12. PAT1018. Public Bike Management (30)
  13. 服务器 无线键鼠,几台电脑一套键鼠 不光省钱还方便
  14. linux如何设置root权限,linux设置root权限的方法
  15. httpServer / proxyServer / nginx 1.7.9
  16. 小米路由器 不显示 连接设备连接到服务器,小米路由器隐藏网络后怎么连接
  17. Ubuntu 18.04安装openJDK7编译安卓6.0.0_r1
  18. 百度推广——搜索营销新视角(百度官方出品,俞敏洪、吴晓波、徐雷力荐!)...
  19. 攻击与脆弱性之间的关系
  20. python字体大小快捷键_PyCharm(2019.1版本)用鼠标滚轮控制放大缩小字体

热门文章

  1. java电脑中可以删除吗,电脑中c盘cflog是什么文件夹?是否可以随意删除
  2. FW:Use Log4XX for Logging
  3. 人工智能芯片研究报告
  4. 视网膜电图特征可以检测成人的抑郁状态和治疗反应:一种机器学习方法
  5. teamviewer 使用数量到达上限_Teamviewer免费版到达设备上限号就废了?
  6. 如何通俗的理解函数的极限_(高等数学笔记)萌新也能理解的函数极限求法
  7. 什么是PACS系统? 其特点是什么? PACS系统应该具有哪些功能?
  8. Postgres安装及MIMIC IV数据库的载入(Windows 10)
  9. JSon解析之JSonKit
  10. 价值创造链路及经营计划