Python爬取数据:翻页操作
Python爬取视频在上一章已经实现,如果爬取数据的时候发现不止一页数据,而是很多页数据的时候,我们就需要爬虫自行翻页操作继续获取另一页的数据。那么如何实现的翻页操作是本章主要描述内容。
该文章爬取数据例子网址
1、翻页操作的原理
翻页操作基本原理实际就是打开另一页的网址(该文章描述的是换页网址会发生变化的类型,换页时地址没变化的不适用该文章描述方法),知道原理后,我们想翻页操作时,只需要找到翻页后的网络地址并打开即可爬取翻页后的数据内容。
2、如何实现翻页
比如爬取数据是如下图这种翻页模式的
那么我们只需要在打开该网址后,打开开发者工具,搜索关键字 “下一章” ,点击搜索到的信息,会看到有需要的下一章网址(如下图所示)
留意记住红框框柱的内容,这是我们想要的点击下一章后刷新的网络地址,只要获取该网络地址并对该网址进行网络请求即可获取下一章的内容,从而实现自动翻页操作
3、代码实现
import requests
import reurl = 'https://read.qidian.com/chapter/YvJ9Xu5KMv01/uq-shwCz0Woex0RJOkJclQ2/'headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}response = requests.get(url=url, headers=headers)next_url = re.findall('href="(.*?)" data-eid="qd_R109" >下一章', response.text)[0]
print("自动获取下一章的网址: %s"%("https:" + next_url))
4、结果
执行完上面代码可看到结果:
我们将自动获取出来的网络地址复制粘贴到浏览器并打开与未翻页的页面对比观看是否实现了下一章的跳转:
跳转前页面:
下一章跳转后页面:
通过两个页面对比,可以看出是正确自动捕获到了翻页后的网址,成功实现了爬虫翻页操作。
希望该文章对你有所帮助,作者能力有限,如有不足请多多包涵。
如果你觉得该文章不错请点个免费的赞吧!
Python爬取数据:翻页操作相关推荐
- python爬取数据时报错:`aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sea
python爬取数据时报错:aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sear ...
- Python:爬取数据出现response.status_code为403解决方法
目录 前言 1. 原理 2. 代码 前言 出现403的返回结果 主要是有些服务器为了防止访问量过大,承受服务器的压力,或者是拒绝你的访问.服务器接收到这个信息,理应返回了这个403的信息 在前一块的代 ...
- Python爬取数据存储到本地文本文件
前面说过Python爬取的数据可以存储到文件.关系型数据库.非关系型数据库.前面两篇文章没看的,可快速戳这里查看!https://mp.weixin.qq.com/s/A-qry4r3ymuCLXLB ...
- python 爬取数据还要下载scrapy吗_python网络爬虫之Scrapy
本文分享的大体框架包含以下三部分 (1)首先介绍html网页,用来解析html网页的工具xpath (2)介绍python中能够进行网络爬虫的库(requests,lxml,scrapy等) (3)从 ...
- [爬虫-python]爬取京东100页的图书(机器学习)的信息(价格,打折后价格,书名,作者,好评数,差评数,总评数)
Python爬取京东的机器学习类图书的信息 一,配置搜索关键字和页数, 二,查找用到的三个URL的过程 1. 搜索图书的URL 2. 评论总数,差评数,好评数的URL 3. 当前价格与打折前价格URL ...
- Python爬取数据并写入MySQL
关于爬虫爬取数据并存入MySQL数据库(以东方财富网上的股票数据为例,网页:深南电A(000037)资金流向 _ 数据中心 _ 东方财富网) 第一步,创建数据库中的数据表 import request ...
- 如何用python爬取数据_如何使用python爬取知乎数据并做简单分析
原标题:如何使用python爬取知乎数据并做简单分析 一.使用的技术栈: 爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件 开发工具:pycharm 数据 ...
- python爬取数据热点词生成词云
这是当时在中国mooc学 用python玩转数据 时,写的一个小demo. 程序实现步骤 1.从某一网站爬取数据,比如我是在豆瓣爬取的书评 利用Requests库的get()爬取网页 使用Beatif ...
- python爬取数据保存为txt格式
#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time #找到网址 de ...
最新文章
- 1小时学会:最简单的iOS直播推流(一)介绍
- Modelsim do文件的自动化仿真及模板
- win10使用网络共享功能的方法
- C#中的控制台进度条
- VS使用scanf函数报错解决方法
- Redis学习-性能与优化(五)
- 超燃!奇安信首度对外公开内部网络攻防演习纪实片
- Linux Workqueue
- python 导出为csv_批量导出SolidWorks模型点坐标值
- vscode 报Open a folder or workspace... (File -> Open Folder)解决办法
- Enterprise Architect 类关系对应解析
- 虎胆熊威2中文版体验
- iOS16.1RC版发布后 iPhone14 Pro系列机型可以在灵动岛显示球赛比分
- 良许Linux | 寓教于乐!一款游戏让你成为 Vim 高手!
- 手机服务器异常修复,手机服务器异常
- re python 引擎_python 详解re模块
- 【HTML/CSS】创建日期和时间表单控件
- EasyExcel代码层面设置写出的Excel样式、以及拦截器策略的使用、自动列宽设置、EasyExcel默认设置详解
- [开源工具]2022/2023 分享好用的免费的云短信/临时短信[Temp Message]
- 生日悖论(python)