html 分页_Python爬虫:如何爬取分页数据?
爬取对象:
有融网理财项目列表页【履约中】状态下的前10页数据,地址:https://www.yrw.com/products/list-all-all-performance-1-createTimeDesc-1.html
编程思路:
1. 寻找分页地址的变动规律 2. 解析网页,获取内容,放入自定义函数中 3. 调用函数,输出分页内容
详细解说:
1. 首先插入用到的库:BeautifulSoup、requests
from bs4 import BeautifulSoup
import requests
2. 观察地址的变化规律,可以看到,每切换一页时,后面“createTimeDesc-1.html”中的数字1会随着页面的变动而变动,此时我们将地址存放进列表中,后面用format()和for循环来实现多个地址的存储。
urls = ['https://www.yrw.com/products/list-direct-all-performance-1-createTimeDesc-{}.html'.format(str(i))foriinrange(1,11)]
print(urls)
此时可以先print下,看地址是否正确,这里range(1,11)是前10个页面的地址。
3. 接下来定义解析函数,参数data的初始值为空。函数内用到的内容和上一篇文章中讲到的相同。先请求urls,然后用BeautifulSoup解析,筛选我们想要的项目标题titles的位置,实现输出。
4. 最后,我们来调用函数。
for titles in urls:
get_titles(titles)
完整代码:
html 分页_Python爬虫:如何爬取分页数据?相关推荐
- boss直聘账号异常登不上_python爬虫Scrapy:爬取boss数据
一.概述 学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
- 初识Python爬虫----如何爬取网络数据
一.什么是网络爬虫 即爬取网络数据的虫子,也就是Python程序. 二.爬虫的实质是什么? 模拟浏览器的工作原理,向服务器发送请求数据. 三.浏览器的工作原理是什么? 浏览器还可以起到翻译数据的作用. ...
- python爬虫实例手机_Python爬虫实现爬取京东手机页面的图片(实例代码)
实例如下所示: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
- python爬取多页数据_python爬虫实现爬取同一个网站的多页数据代码实例
本篇文章小编给大家分享一下python爬虫实现爬取同一个网站的多页数据代码实例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 一.爬虫的目的 从网上获 ...
- python爬虫知乎图片_python爬虫(爬取知乎答案图片)
python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境 我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...
- python爬虫金融数据_python爬虫项目-爬取雪球网金融数据(关注、持续更新)
(一)python金融数据爬虫项目 爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=cn&firstname=1&secondname=1_ ...
- python 网上爬取数据源码_Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章...
1.最简单的Python爬虫 最简单的Python爬虫莫过于直接使用urllib.request.urlopen(url=某网站)或者requests.get(url=某网站)例如:爬取漫客栈里面的漫 ...
- python爬虫模块_Python爬虫 --- Scrapy爬取IT桔子网
目标: 此次爬取主要是针对IT桔子网的事件信息模块,然后把爬取的数据存储到mysql数据库中. 目标分析: 通过浏览器浏览发现事件模块需要登录才能访问,因此我们需要先登录,抓取登录接口: 可以看到桔子 ...
- python爬虫爬取豆瓣电影信息城市_python爬虫,爬取豆瓣电影信息
hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...
- python接收弹幕_Python爬虫自动化爬取b站实时弹幕实例方法
最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频.我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例 ...
最新文章
- Python 多线程总结(1)- thread 模块
- python数据分析第三方库是_python数据分析复盘——数据分析相关库之Pandas
- python的业务场景_python| Binlog务应用场景
- html 高度不够,HTML/CSS:Div未扩展到内容高度
- 一个使用numpy.ones()的矩阵| 使用Python的线性代数
- 树莓派Raspberry实践笔记—显示分辨率配置
- phpstorm 新加入项目的文件--全局搜索不到 ctrl + shift + R
- linux 信号量_SystemV IPC通信信号量
- react 使用recoil 减少不必要的组件渲染
- linux cadaver 命令,对于linux中线程id的讨论
- arm-linux-gnueabihf 交叉编译ffmpeg
- 这是昨天的内容,就这样慢慢整吧,然后,荒废了好多时间啊!!
- python/gdal处理遥感影像(读取、投影转换、裁剪、建立图像金字塔等)
- 安利3款可以将pdf转换成word免费软件
- 北京公积金打印贷款证明(缴存明细+异地贷款职工缴存使用证明)
- 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
- Thinking in uml 大象 系统用例
- Face Swapping under Large Pose Variations: a 3D Model Based Approach论文阅读笔记
- Linux系统创建新的普通用户
- 大数据之flink教程