python收集网页中的翻页

要用采集器采集网页中的图片，由于网址里面的下一页是javascript形式的，此采集器无法判断，所以先用python把网址搜集起来。
观察到每翻一页,网址后面的页码数+1。为提高效率，减少访问数，先找到可见的最后一个链接，根据此链接页码数，拼凑出前面网址。

然后访问最后链接，查找是否有“下一页”字段，如果有，就拼凑出下一页网址。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
from lxml import etree
def find_url(url):global count,newUrl#找到最后一个课程链接，取出页码，拼凑1至此页码的网址并添加到列表newUrl。#XPath规则可在chrome中查看。r = requests.get(url+'001.htm')count += 1html = etree.HTML(r.text)#找到最后一个可见链接result = html.xpath('//div[@class="xxxxxx"]/a[last()]/@href')#取出链接中的页码数maxNumber = int(result[0].split('/')[-1].split('.')[0])print maxNumber#拼凑前面网址添加到列表newUrlfor i in xrange(1,maxNumber+1):nextUrl = "{0}{1:0>3}.htm".format(url , i)newUrl.append(nextUrl)#判断网页中是否有“下一页”，如果有，拼凑出下一页网址，并添加到newUrlnextR = requests.get(newUrl[-1])count += 1nextR.encoding = 'GBK'#查找“title="下一页"”while nextR.text.find(u'title="下一页"') != -1:maxNumber += 1nextUrl = "{0}{1:0>3}.htm".format(url , maxNumber)newUrl.append(nextUrl)print maxNumbertry:nextR = requests.get(nextUrl)count += 1nextR.encoding = 'GBK'except:break     print '访问url数:',count   #记录访问数，每访问一次，count加1
count = 0
#用于存储url的列表
newUrl = []for row in open(u'E:/xx/xxxx/rjb_1.txt','r'):find_url(row.strip())#存入文本with open(u'E:/xx/xxxx/url_a1.txt','a') as f:for url in newUrl:print >> f,urlnewUrl = []

python收集网页中的翻页相关推荐

用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载
用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...
Bootstrap 分页导航中的翻页组件
分页导航中的翻页一些简单的网站,比如博客或者杂志网站,希望用更少的标记和样式,来创建简单的"前一页"和"后一页"的翻页导航. Bootstrap中,只需为列表 ...
用python刷微信阅读_使用python让微信读书自动翻页
微信读书目前是朋友圈最流行的一款读书app,但是很遗憾微信读书没有自动翻页模式,不过这可难不倒程序员,写个程序让它自动翻页不久好了. 而且微信读书有这样一个激励政策:"每阅读30分钟可兑1赠 ...
python爬取百度图片——翻页式网站爬取
小编大约于这个月月初写的这一份代码,但很不幸,大概20号,再次找百度图片翻页流的时候,发现是瀑布流且回不去了,还好代码里面留了翻页流的网址所以,现在来分享给大家. 语言:python3.6 库:re ...
python提取网页中p标签中的内容_使用Python进行爬虫的初学者指南
前言爬虫是一种从网站上抓取大量数据的自动化方法.即使是复制和粘贴你喜欢的网站上的引用或行,也是一种web抓取的形式.大多数网站不允许你保存他们网站上的数据供你使用.因此,唯一的选择是手动复制数据,这 ...
python爬虫翻页_教给你一个python爬虫最简单的翻页的办法
很多同学对python爬虫翻页感到很是头疼,下面我教给大家一个最简单的办法:模糊搜索法.以这个网站 :https://m.51xw.net/meizi/ 为例打开网站我们先看到的是一个个的图集,点开 ...
Linux的vim编辑器中的翻页命令
当我们进入Linux的vim编辑器查看脚本时,按上下键查看是不是非常慢?这个时候就要用到我们的翻页快捷键了,快捷键命令如: 整页翻页命令为: Ctrl + f 键 f 的英文全拼为:forw ...
vue中el-table翻页序号连续
一.需求: 需要在el-table中有一列是序号,且翻页时,序号要连续,且删除当前行时,序号需要从后往前递补:且这个序号不是通过后端返回的数组中取到的对应字段,需要纯前端处理二.解决方案方案一: ...
网页特效——图片翻页和图片滚动的实现方法
1. 图片翻页特效: 效果:多张图片逐个翻页显示,也可用鼠标点击图片区域下方的页码手动翻页.每张图片上都可添加链接引向不同位置的帖子. 演示:在专刊盛世奥运之奢华盘点上半部分中间"华美谢幕& ...

python收集网页中的翻页

python收集网页中的翻页相关推荐

最新文章

热门文章