在日常工作中常常需要重复填写某些表单,如果人工完成,费时费力,而且网络延迟令人十分崩溃。如果能够用程序实现自动填表,效率可以提高一倍以上,并且能够移植到多台计算机,进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具,它能完全模拟浏览器的操作,无需处理复杂的request、post,对爬虫初学者十分友好。

一、环境配置

python3.6+selenium库+xlrd库+xlwt库

其中xlrd和xlwt库用于读写excel表中的数据。

还要下载一个浏览器的driver文件用于打开浏览器,注意要选择与计算机系统相符合的版本(max/windows64位/windows32位)

将下载下来的driver.exe放到浏览器根目录和python的根目录

二、打开网页

以IE浏览器为例,以下两行代码就可以实现打开一个IE浏览器并且访问我们需要填表的网站

driver= webdriver.Ie()

driver.get('http://xxxx.com/')

如果网站需要登陆(需要填表的一般是公司内部网站),再写一个login函数,将driver作为参数调用

driver = login(driver)

注意一定要将driver传回,这样driver才能继续接受程序的指令

三、元素定位

webdriver的工作原理是找到网页中某一个元素,可以对其进行填入数据或点击等操作。

我主要用到的元素定位方式有

driver.find_element_by_id('someid')#通过元素的id定位

driver.find_element_by_css_selector("input[value='确定'")#查找一个input元素,它的value属性值为'确定'

driver.find_element_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#查找一个style属性值为'COLOR:red'的span元素的第一个span子元素

(1)通过id定位

如果我们想在网页表单的某一个位置填某项值或者点击某个按钮,我们首先要用开发者工具查看这个元素的源代码,然后首先观察它有没有id,如果有id,直接用id定位该元素。然后,用

driver.find_element_by_id('someid').click()#点击元素

driver.find_element_by_id('someid').send_keys('somekeys')#填入'somekeys'

driver.find_element_by_id('someid').clear()#清空输入框中已有的值

实现我们想要做的操作。

(2)通过ccs selector定位

如果我们想要操作的元素没有ID,那么我们就要找到它跟网页其他元素不同的特征,ccs selector是一种十分灵活的定位方式,其中用value定位是一个不错的选择。以

driver.find_element_by_css_selector("input[value='确定'")

为例,双引号中的input可以换成任何网页元素(div、span、input、a等),中括号中是该元素的某一个属性(style、id、value、class等),等号后面是该属性的值。

注意,如果网页中有多个元素同时满足ccs selector的条件,如有多个value=“确定” 的input,那么find_element_by_css_selector只会定位到在html源代码中最靠前的一个,而find_elements_by_css_selector会找到源代码中所有满足条件的元素,并以列表的形式返回这些找到的元素。例如,网页中弹出很多个提示框,我们要一一去点确定,可以这样操作

list=driver.find_elements_by_css_selector("input[value=' 确定 ']")

for l in list:

l.click()

但是,如果这些提示框是重叠出现的,而最上层的提示框实际上在源码中更靠后的位置,那么列表中第一个“确定”元素就会被叠在上面的提示框遮挡,无法点击,这个时候倒序一下数组就可以了,从最后一个“确定”元素开始点击

query=driver.find_elements_by_css_selector("input[value=' 确定 ']")

for q in query[::-1]:

q.click()

(3)通过xpath定位

xpath定位比较复杂但是非常全面,当这个元素的class、style属性和其他元素一样,实在没什么特点可以一步定位的时候,我们就可以用xpath,先找到我们想要的元素的父子兄弟元素,再定位到我们想要的元素。例如

driver.find_element_by_xpath('//*[@class="submit clear"]/input[1]').click()

text =driver.find_element_by_xpath("//input[@value=' 确定 ']/../preceding-sibling::div[1]").text

driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")

引号中的//表示相对定位,表示从源代码中任何地方开始寻找。

//后可以跟任何元素,*代表任意元素,即定位符合属性筛选任何元素。

中括号内是属性的筛选条件,@后可以加任意属性。contains(@style,'COLOR: red')表示的筛选条件是:style属性中包含”COLOR:red“。这里为什么不直接用@style='COLOR: red'

的原因是,可能在我们审查源代码的时候这个元素的style属性只有'COLOR: red'这一条,但是动态界面的style属性经常变化,程序运行时直接用等于是定位不到这个元素的。

/..  可以定位这个元素的父亲元素

/  可以定位这个元素的子元素

/preceding-sibling::  可以定位这个元素的哥哥元素

/following-sibling::  可以定位这个元素的弟弟元素

如/input[1]表示子元素中第一个input、/../preceding-sibling::div[1]表示父元素的哥哥元素中的第一个div

(4)通过当前节点定位

有时候我们会遇到需要判断一下元素当前的状态(是否被选择)再决定接下来的操作的情况,这时就需要用一个变量来保存当前节点

LTE=driver.find_element_by_xpath("//input[@id='LTE']/../span[1]"

然后再用get_attribute获得当前节点元素的属性,在这个例子里,如果元素为蓝色,就不需要点击。代码实现为:

if LTE.get_attribute("style")=="COLOR: blue":

pass

else:

LET.click()

需要筛选出特定文本的情况:

red=driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#找出所有红色的文本

for r in red:

if '低消' in r.text:#如果文本信息中包含‘低消’

r.find_element_by_xpath("./../preceding-sibling::input[1]").click()#注意从当前节点定位的时候要以‘./’开头

break

如果寻找的元素需要滚动界面才能看到,这个时候可以用js聚焦此元素,页面便会滚动到该元素的位置

target=driver.find_element_by_css_selector("input[value=' 确定 ']")

driver.execute_script("arguments[0].scrollIntoView();", target)

target.click()

四、不确定情况处理

(1)有可能出现的弹窗

在填表过程中,有些地方有可能出现一个弹框也有可能不出现,这个时候,无论这个弹窗是什么,用try..except语句处理就可以解决

js触发的弹窗:

try:

driver.find_element_by_css_selector("input[value=' 确定 ']").click()

except Exception as e:

pass

网页alert弹窗:

try:

driver.switch_to.alert.dismiss()

except Exception:

pass

dismiss()对应的是alert弹窗的”取消“项,accept()对应的是”确定“项,driver.switch_to.alert.text 可以获得弹窗的文本内容。

(2)数量不定的弹窗

对上文提到的多个提示框情况,除了用 query=driver.find_elements_by_css_selector("input[value=' 确定 ']") 一次性找到所有元素再顺序或倒序点击之外,还可以用一个while循环解决

while(1):

try:

driver.find_element_by_css_selector("input[value=' 确定 ']").click()

except Exception as e:

break

(3)网络延迟

有些网页在点击查询信息之后需要加载一段时间,加载中的页面是找不到我们接下来想找的元素的,因此程序就会报错,此时有两种解决方法。

一种是固定等待一段时间,等待网页加载完毕,这种方法的缺点是很难找到等待的最佳时间,太短的话页面还没加载完,太长就影响效率

time.sleep(2)

另一种是用一个while循环一直寻找下一个我们要找的元素

while(1):

try:

driver.find_element_by_id('continueTrade').click()

break

except Exception:

pass

这种方法的前提是下一个要找的元素必定会出现

五、frame处理

总结起来就是:frameset不用切,frame层层切。最好一系列填表操作完后都用 driver.switch_to.default_content() 回到原文档,这样不容易混乱

这里再补充一点frame没有id时的切入方法

frame= self.driver.find_element_by_xpath("/html/body/div[12]/iframe")#先定位frame位置,用一个变量储存这个节点

self.driver.switch_to_frame(frame)#再切入这个节点

六、excel数据读写

excel数据读写十分简单,看代码就好了:

def read(file):

data = xlrd.open_workbook(file)#打开excel文件

table = data.sheets()[0]#读取第一个sheet的数据

phones = table.col_values(0)#以列表形式存储第一列数据

peoples = table.col_values(1)#以列表形式存储第二列数据

return phones,peoples

def write(result):

file=xlwt.Workbook()#创建一个excel文件

table = file.add_sheet('sheet1')#添加一个sheet

for i in range(len(result)):#写入数据

table.write(i,0,result[i][0])

table.write(i,1,result[i][1])

table.write(i,2,result[i][2])

file.save('result.xls')

结语:希望技术能让人们从无意义的重复劳动中解脱:D

python自动填表单_用python-webdriver实现自动填表相关推荐

  1. python自动投递简历_用python在前程无忧高效投递简历

    在前程无忧上投递简历发现有竞争力分析,免费能看到匹配度评价和综合竞争力分数,能够作投递参考 计算方式php 综合竞争力得分应该越高越好,匹配度评语也应该评价越高越好html 抓取全部职位关键字搜索结果 ...

  2. pythoncookie自动模拟登录_用Python模拟技巧带你实现自动抽屉登录自动点赞

    原标题:用Python模拟技巧带你实现自动抽屉登录&自动点赞 /1 前言/ 嘿,各位小伙伴们晚上好呀,今天小编又给大家带来干货内容啦,今天带来的是,如何自动登录抽屉,并且点赞! 原计划是不打算 ...

  3. python 鼠标 自动点击_鼠标隔段时间自动点击屏幕

    知识点:Python库及简单定时器的使用 1. 鼠标自动点击屏幕代码 (1). 首先 pip install pymouse (2). 运行代码出现:ModuleNotFoundError: No m ...

  4. python实现app自动签到器_利用Python实现App自动签到领取积分

    要自动签到,最简单的是打开页面分析请求,然后我们用脚本实现请求的自动化.但是发现食行没有页面,只有 APP,这不是一个好消息,这意味着需要抓包处理了. 有需要Python学习资料的小伙伴吗?小编整理[ ...

  5. python自动获取天气_用python获取天气数据,并作定时播报

    原标题:用python获取天气数据,并作定时播报 数据挖掘入门与实战 公众号: datadw 思路 1.调用和风天气的API,获取天气数据 2.用百度语音API,将天气数据合成语音 3.用树莓派每天早 ...

  6. python 重复执行任务_使用Python自动执行数字艺术家的重复任务

    python 重复执行任务 艺术家和设计师应该知道如何编码. 在那里,我说了. 现在,我可以深入探讨一下艺术家的思维方式和开发人员/工程师的思维方式没有什么不同,或者"非技术艺术家" ...

  7. python自动排课表_利用python爬取广西科技大学教务管理信息系统班级课表

    操作环境 python 3.6.1 pycharm 5.0.3 WampServer 3.0.6 windows 8(64位) 特点 1.中途退出程序或者断网之后重连再次运行不会抓取到重复的课程表 2 ...

  8. python大牛 关东升_《Python从小白到大牛》第4章 Python语法基础

    本章主要为大家介绍Python的一些语法,其中包括标识符.关键字.常量.变量.表达式.语句.注释.模块和包等内容. 标识符和关键字 任何一种计算机语言都离不开标识符和关键字,因此下面将详细介绍Pyth ...

  9. 以下选项中python用于异常处理结构_《Python 程序设计》复习题

    目录 填空题 一.基础知识 二.序列 三.选择结构与循环结构和函数及面向对象.文件 选择题 一.Python 基础语法 二.基本数据类型 三.程序的控制结构 四.函数和代码复用 五.组合数据类型 六. ...

  10. python出现的意义_[转]Python中下划线以及命名空间的意义

    Python 用下划线作为变量前缀和后缀指定特殊变量/方法. 主要存在四种情形 1. 1. object # public 2. __object__ # special, python system ...

最新文章

  1. 独家 | 使用TensorFlow 2创建自定义损失函数
  2. android 读取sd卡中的图片
  3. dependencies与devDependencies的区别
  4. Minor GC和Major GC和Full GC
  5. pytorch线性回归代码_[PyTorch 学习笔记] 1.3 张量操作与线性回归
  6. 昆虫繁殖(信息学奥赛一本通-T1312)
  7. Verlet integration (Verlet 积分法)
  8. viewport属性
  9. 西门子atch指令详解_西门子plc指令
  10. VR终极入门指南:设备,内容,手机...都在这里了|深扒
  11. 25岁,上帝找你谈一次灵魂。——送给女孩,也送给男孩
  12. 基于SSM的大学生创业众筹平台网站 毕业设计-附源码212000
  13. 大数据学习资源最全版本(收藏)
  14. GXNNCTF 2018 We_ax WriteUp 第三届南宁市网络安全技术大赛
  15. 自动驾驶(三十二)---------车辆行人识别
  16. 97年世界编程大赛一等奖作品
  17. Solidworks设计电路外形导入AltiumDesigner
  18. linux无线8179,编译安装0bda 8179无线网卡
  19. jmeter ip 欺骗
  20. .NetCore微信支付+服务商模式(saas)

热门文章

  1. 软件工程实践——软件评测
  2. xss漏洞工具 -- xsser
  3. Linux汇编语言开发指南
  4. 高等数学下册——引力
  5. Turbo码相关学习
  6. Linux进程间通信
  7. 馈线互调测试仪仿真软件,CYME电力工程仿真分析软件
  8. oracle卸载客户端,oracle11g客户端如何完全卸载
  9. 超微服务器主板型号,Supermicro超微主板X10SRL-FLGA-2011,单路入门级服务器主板
  10. java 数独 gui,GitHub - fagen/sudoku: 数独终局生成器和GUI