要用采集器采集网页中的图片,由于网址里面的下一页是javascript形式的,此采集器无法判断,所以先用python把网址搜集起来。
观察到每翻一页,网址后面的页码数+1。为提高效率,减少访问数,先找到可见的最后一个链接,根据此链接页码数,拼凑出前面网址。

然后访问最后链接,查找是否有“下一页”字段,如果有,就拼凑出下一页网址。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
from lxml import etree
def find_url(url):global count,newUrl#找到最后一个课程链接,取出页码,拼凑1至此页码的网址并添加到列表newUrl。#XPath规则可在chrome中查看。r = requests.get(url+'001.htm')count += 1html = etree.HTML(r.text)#找到最后一个可见链接result = html.xpath('//div[@class="xxxxxx"]/a[last()]/@href')#取出链接中的页码数maxNumber = int(result[0].split('/')[-1].split('.')[0])print maxNumber#拼凑前面网址添加到列表newUrlfor i in xrange(1,maxNumber+1):nextUrl = "{0}{1:0>3}.htm".format(url , i)newUrl.append(nextUrl)#判断网页中是否有“下一页”,如果有,拼凑出下一页网址,并添加到newUrlnextR = requests.get(newUrl[-1])count += 1nextR.encoding = 'GBK'#查找“title="下一页"”while nextR.text.find(u'title="下一页"') != -1:maxNumber += 1nextUrl = "{0}{1:0>3}.htm".format(url , maxNumber)newUrl.append(nextUrl)print maxNumbertry:nextR = requests.get(nextUrl)count += 1nextR.encoding = 'GBK'except:break     print '访问url数:',count   #记录访问数,每访问一次,count加1
count = 0
#用于存储url的列表
newUrl = []for row in open(u'E:/xx/xxxx/rjb_1.txt','r'):find_url(row.strip())#存入文本with open(u'E:/xx/xxxx/url_a1.txt','a') as f:for url in newUrl:print >> f,urlnewUrl = []

python收集网页中的翻页相关推荐

  1. 用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载

    用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...

  2. Bootstrap 分页导航中的翻页组件

    分页导航中的翻页 一些简单的网站,比如博客或者杂志网站,希望用更少的标记和样式,来创建简单的"前一页"和"后一页"的翻页导航. Bootstrap中,只需为列表 ...

  3. 用python刷微信阅读_使用python让微信读书自动翻页

    微信读书目前是朋友圈最流行的一款读书app,但是很遗憾微信读书没有自动翻页模式,不过这可难不倒程序员,写个程序让它自动翻页不久好了. 而且微信读书有这样一个激励政策:"每阅读30分钟可兑1赠 ...

  4. python爬取百度图片——翻页式网站爬取

    小编大约于这个月月初写的这一份代码,但很不幸,大概20号,再次找百度图片翻页流的时候,发现是瀑布流且回不去了,还好代码里面留了翻页流的网址 所以,现在来分享给大家. 语言:python3.6 库:re ...

  5. python提取网页中p标签中的内容_使用Python进行爬虫的初学者指南

    前言 爬虫是一种从网站上抓取大量数据的自动化方法.即使是复制和粘贴你喜欢的网站上的引用或行,也是一种web抓取的形式.大多数网站不允许你保存他们网站上的数据供你使用.因此,唯一的选择是手动复制数据,这 ...

  6. python爬虫翻页_教给你一个python爬虫最简单的翻页的办法

    很多同学对python爬虫翻页感到很是头疼,下面我教给大家一个最简单的办法:模糊搜索法.以这个网站 :https://m.51xw.net/meizi/ 为例 打开网站我们先看到的是一个个的图集,点开 ...

  7. Linux的vim编辑器中的翻页命令

    当我们进入Linux的vim编辑器查看脚本时,按上下键查看是不是非常慢?这个时候就要用到我们的翻页快捷键了,快捷键命令如: 整页翻页命令为:    Ctrl + f 键   f 的英文全拼为:forw ...

  8. vue中el-table翻页序号连续

    一.需求: 需要在el-table中有一列是序号,且翻页时,序号要连续,且删除当前行时,序号需要从后往前递补:且这个序号不是通过后端返回的数组中取到的对应字段,需要纯前端处理 二.解决方案 方案一: ...

  9. 网页特效——图片翻页和图片滚动的实现方法

    1. 图片翻页特效: 效果:多张图片逐个翻页显示,也可用鼠标点击图片区域下方的页码手动翻页.每张图片上都可添加链接引向不同位置的帖子. 演示:在专刊盛世奥运之奢华盘点上半部分中间"华美谢幕& ...

最新文章

  1. “惊群”,看看nginx是怎么解决它的
  2. 计算机书籍- 网络爬虫开发实战
  3. ceph auth get_服装百科|get到羽绒服的“绒”干货,你就能做好设计
  4. 如何快速掌握Pandas
  5. SpringBoot项目中对mysql数据库进行定时备份为sql文件的实现思路
  6. 容易被误读的IOSTAT
  7. python控制手机自动刷新闻_Python脚本利用adb进行手机控制的方法
  8. php中的fpm_PHP中的FPM是做什么的
  9. 真机x86 android分辨率,Android-x86入门之--启动参数设置
  10. java文件日志功能_JAVA文件下载功能问题解决日志
  11. 阶段3 1.Mybatis_02.Mybatis入门案例_1.mybatis的入门
  12. 弱引用什么时候被回收_Java中的强软弱虚引用
  13. LNMT、LAMT架构简单实例
  14. discuz 登录代码流程
  15. 网红茶饮难逃“短命”之殇,喜茶能否打破这个魔咒?
  16. cura切片操作学习
  17. 一个口 光纤 两条线 交换机 上 光纤 两条线 双纤 单纤 尾纤 分光器 双纤 双纤转单纤 接 分光器
  18. python 批量造数据
  19. java 窗口点击事件
  20. maven 教程一 入门

热门文章

  1. 基于三层BP神经网络的人脸识别
  2. 108.将有序数组转换为二叉搜索树
  3. ajax提交无反应,IE中jquery.form中ajax提交没反应解决方法分享
  4. tomcat7修改内存 win_详解Windows下调整Tomcat启动参数的实现方法
  5. 市场份额一般是多少_一瓶500毫升的啤酒相当于多少白酒?
  6. java 嵌套对象序列化_在javascript中将复杂的,嵌套的,用户定义的对象序列化为字符串...
  7. c++ primer 笔记[20190406]
  8. Centos7-Mysql 5.6 多主一从 解决方案详细配置
  9. UITableView学习笔记
  10. js、PHP将分数字符串转换为小数