python爬虫翻页_使用Python实现博客上进行自动翻页
先上一张代码及代码运行后的输出结果的图!
下面上代码:
# coding=utf-8
import os
import time
from selenium import webdriver
#打开火狐浏览器 需要V47版本以上的
driver = webdriver.Firefox()#打开火狐浏览器
url = "http://codelife.ecit-it.com"#这里打开我的博客网站
driver.get(url)#设置火狐浏览器打开的网址
time.sleep(2)
#使用xpath进行多路径或多元素定位,用法看官网http://selenium-python.readthedocs.io/locating-elements.html
elem_dh = driver.find_elements_by_xpath("//div[@class='pagination pagination-large']/ul/li/a")
print ("我是刚获取的翻页按钮的路径数组:",elem_dh)
print ("下一页按钮元素:",elem_dh[2])
time.sleep(5)
#获取当前窗口句柄
now_handle = driver.current_window_handle #获取当前窗口句柄
print ("我是当前窗口的句柄:",now_handle)#打印窗口句柄 是一串数字
time.sleep(10)
#循环获取界面
for elem in elem_dh:
print ("我是翻页按钮上的文本信息:",elem.text) #获取元素的文本值
print ("我是翻页按钮的地址",elem.get_attribute('href')) #获取元素的href属性值
elem.click()#点击进入新的界面 _blank弹出
print ("刚翻页完成了!")
time.sleep(20)
代码为了让大家能看清楚是怎么回事,代码我已经加了注解。
运行上面的代码后执行的结果如下:
>>> 我是刚获取的翻页按钮的路径数组: [, , ]
我是当前窗口的句柄: 2147483652
我是翻页按钮上的文本信息: « 上一页
我是翻页按钮的地址 None
刚翻页完成了!
我是翻页按钮上的文本信息: 2
我是翻页按钮的地址 http://codelife.ecit-it.com/page2
刚翻页完成了!
我是翻页按钮上的文本信息: 下一页 »
我是翻页按钮的地址 http://codelife.ecit-it.com/page2
刚翻页完成了!
很多同学会问运行中是个什么情况,给大家上几张图片:
上图是自动在地址栏输入http:codelife.ecit-it.com,并加载博客站点。
默认加载的是博客第一页的内容哦。
经过等待,等待的过程中千万别走神,否则会错过了哦!上图已经点击了,还好我眼疾手快截到图了。
点击完第二页后就跳转到第二页去了。
观察仔细的同学会发现,我后面有一行代码是后来加上去的。
print ("下一页按钮元素:",elem_dh[2])
加入上面一行代码将可以打印出博客上的”下一页“按钮元素的定位数据。
我们可以看到,下一页的元素信息打印出来了。如果有同学需要只点击”下一页“按钮进行翻页的话,可以用到这个元素数组。
当然,开发环境大家一写要安装完好,安装的插件比较多,如果上面代码大家进行出错的话,说明大家的开发环境有问题,或是少插件,或是版本号与插件不对应。
本人电脑上的Python版本是3.6.2,安装的pywin32也是3.6版本的。
今天就写到这了,后面再继续跟大家分享,一起进步。
时间: 2017-08-20
python爬虫翻页_使用Python实现博客上进行自动翻页相关推荐
- python爬虫入门教程-Python爬虫入门教程——爬取自己的博客园博客
互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...
- python爬虫教程-Python爬虫入门教程——爬取自己的博客园博客
互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...
- python爬虫爬商品库存_利用Python爬虫爬取指定天猫店铺全店商品信息
本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示 首先还是完 ...
- python爬虫电影资源_【Python爬虫】第十六次 xpath整站抓取阳光电影网电影资源
[Python爬虫]第十六次 xpath整站抓取阳光电影网电影资源# 一.解析电影url # 请求15题构造出的每个电影菜单的分页url,解析出每个电影url # 二.xpath解析电影资源 # 对第 ...
- 如何给python爬虫加界面_给Python爬虫做一个界面.上
做爬虫做了那么久,开始逐渐不满足写好程序,每次只能完成一件事情.开始思考如何可以做一个简单界面交互,再增加爬虫的可操作室,做交互界面有两个思路: 用Django做一个web界面: 用PyQt做一个ex ...
- python爬虫下载小说_用PYTHON爬虫简单爬取网络小说
用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...
- 用python爬虫下载视频_使用Python编写简单网络爬虫抓取视频下载资源
我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚 ...
- python 爬虫框架对比_用Python写爬虫,用什么方式、框架比较好?
以前只写过很简单的Python爬虫,直接用内置库实现,有没有谁用Python爬过规模较大的数据,用的是什么方法? 还有,采用现有的Python爬虫框架,相比与直接使用内置库,优势在哪?因为Python ...
- mac用python爬虫下载图片_使用Python爬虫实现自动下载图片
python爬虫支持模块多.代码简洁.开发效率高 ,是我们进行网络爬虫可以选取的好工具.对于一个个的爬取下载,势必会消耗我们大量的时间,使用Python爬虫就可以解决这个问题,即可以实现自动下载.本文 ...
最新文章
- Linux 构建一些 开机就可以使用的命令
- 提的最多的数据库“索引”,先来简单了解一下
- 前端学习(2037)vue之电商管理系统电商系统之优化
- Ubuntu解除端口占用
- php v9验证码错误,PHPCMS v9后台登陆提示验证码错误的解决方法
- 怎样用c语言输出一个函数图像,请教 怎么才能用C输出一个函数的图像?大侠 帮帮忙啊...
- mysql io瓶颈,(续)为什么当磁盘IO成瓶颈之后数据库的性能急剧下降—性能更悲剧篇...
- PC-如何禁用 Cookie
- Linux中last的用法及参数,查看登陆系统用户的信息
- Java是传值还是传引用
- 单片机c语言指针赋地址,[转载]单片机c语言指针和取地址以及类型转换
- 建筑基坑工程设计计算与施工(一)
- 智能停车场[简易版]
- 【T+】畅捷通T+单据生成凭证的时候,提示存在单据未正常记账,需要重新计价。
- 学习Python全套代码【超详细】Python入门、核心语法、数据结构、Python进阶【致那个想学好Python的你】
- Making FIFA Coins with FUT 14 Winter Upgrades
- IntelliJ IDEA 常见文件类型的图标介绍
- VsCode 何时能一统江湖?
- 你的语言模型有没有“无法预测的词”?
- Codeforces 1579G