在日常工作中常常需要重复填写某些表单,如果人工完成,费时费力,而且网络延迟令人十分崩溃。如果能够用程序实现自动填表,效率可以提高一倍以上,并且能够移植到多台计算机,进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具,它能完全模拟浏览器的操作,无需处理复杂的request、post,对爬虫初学者十分友好。

一、环境配置

python3.6+selenium库+xlrd库+xlwt库

其中xlrd和xlwt库用于读写excel表中的数据。

还要下载一个浏览器的driver文件用于打开浏览器,注意要选择与计算机系统相符合的版本(max/windows64位/windows32位)

将下载下来的driver.exe放到浏览器根目录和python的根目录

二、打开网页

以IE浏览器为例,以下两行代码就可以实现打开一个IE浏览器并且访问我们需要填表的网站

driver=webdriver.Ie()

driver.get("http://xxxx.com/")

如果网站需要登陆(需要填表的一般是公司内部网站),再写一个login函数,将driver作为参数调用

driver = login(driver)

注意一定要将driver传回,这样driver才能继续接受程序的指令

三、元素定位

webdriver的工作原理是找到网页中某一个元素,可以对其进行填入数据或点击等操作。

我主要用到的元素定位方式有

driver.find_element_by_id("someid")#通过元素的id定位

driver.find_element_by_css_selector("input[value="确定"")#查找一个input元素,它的value属性值为"确定"

driver.find_element_by_xpath("//span[contains(@style,"COLOR: red")]/span[1]")#查找一个style属性值为"COLOR:red"的span元素的第一个span子元素

(1)通过id定位

如果我们想在网页表单的某一个位置填某项值或者点击某个按钮,我们首先要用开发者工具查看这个元素的源代码,然后首先观察它有没有id,如果有id,直接用id定位该元素。然后,用

driver.find_element_by_id("someid").click()#点击元素

driver.find_element_by_id("someid").send_keys("somekeys")#填入"somekeys"

driver.find_element_by_id("someid").clear()#清空输入框中已有的值

实现我们想要做的操作。

(2)通过ccs selector定位

如果我们想要操作的元素没有ID,那么我们就要找到它跟网页其他元素不同的特征,ccs selector是一种十分灵活的定位方式,其中用value定位是一个不错的选择。以

driver.find_element_by_css_selector("input[value="确定"")

为例,双引号中的input可以换成任何网页元素(div、span、input、a等),中括号中是该元素的某一个属性(style、id、value、class等),等号后面是该属性的值。

注意,如果网页中有多个元素同时满足ccs selector的条件,如有多个value=“确定” 的input,那么find_element_by_css_selector只会定位到在html源代码中最靠前的一个,而find_elements_by_css_selector会找到源代码中所有满足条件的元素,并以列表的形式返回这些找到的元素。例如,网页中弹出很多个提示框,我们要一一去点确定,可以这样操作

list=driver.find_elements_by_css_selector("input[value=" 确定 "]")for l inlist:

l.click()

但是,如果这些提示框是重叠出现的,而最上层的提示框实际上在源码中更靠后的位置,那么列表中第一个“确定”元素就会被叠在上面的提示框遮挡,无法点击,这个时候倒序一下数组就可以了,从最后一个“确定”元素开始点击

query=driver.find_elements_by_css_selector("input[value=" 确定 "]")for q in query[::-1]:

q.click()

(3)通过xpath定位

xpath定位比较复杂但是非常全面,当这个元素的class、style属性和其他元素一样,实在没什么特点可以一步定位的时候,我们就可以用xpath,先找到我们想要的元素的父子兄弟元素,再定位到我们想要的元素。例如

driver.find_element_by_xpath("//*[@class="submit clear"]/input[1]").click()

text=driver.find_element_by_xpath("//input[@value=" 确定 "]/../preceding-sibling::div[1]").text

driver.find_elements_by_xpath("//span[contains(@style,"COLOR: red")]/span[1]")

引号中的//表示相对定位,表示从源代码中任何地方开始寻找。

//后可以跟任何元素,*代表任意元素,即定位符合属性筛选任何元素。

中括号内是属性的筛选条件,@后可以加任意属性。contains(@style,"COLOR: red")表示的筛选条件是:style属性中包含”COLOR:red“。这里为什么不直接用@style="COLOR: red"

的原因是,可能在我们审查源代码的时候这个元素的style属性只有"COLOR: red"这一条,但是动态界面的style属性经常变化,程序运行时直接用等于是定位不到这个元素的。

/.. 可以定位这个元素的父亲元素

/ 可以定位这个元素的子元素

/preceding-sibling:: 可以定位这个元素的哥哥元素

/following-sibling:: 可以定位这个元素的弟弟元素

如/input[1]表示子元素中第一个input、/../preceding-sibling::div[1]表示父元素的哥哥元素中的第一个div

(4)通过当前节点定位

有时候我们会遇到需要判断一下元素当前的状态(是否被选择)再决定接下来的操作的情况,这时就需要用一个变量来保存当前节点

LTE=driver.find_element_by_xpath("//input[@id="LTE"]/../span[1]"

然后再用get_attribute获得当前节点元素的属性,在这个例子里,如果元素为蓝色,就不需要点击。代码实现为:

if LTE.get_attribute("style")=="COLOR: blue":pass

else:

LET.click()

需要筛选出特定文本的情况:

red=driver.find_elements_by_xpath("//span[contains(@style,"COLOR: red")]/span[1]")#找出所有红色的文本

for r inred:if "低消" in r.text:#如果文本信息中包含"低消’

r.find_element_by_xpath("./../preceding-sibling::input[1]").click()#注意从当前节点定位的时候要以"./’开头

break

如果寻找的元素需要滚动界面才能看到,这个时候可以用js聚焦此元素,页面便会滚动到该元素的位置

target=driver.find_element_by_css_selector("input[value=" 确定 "]")

driver.execute_script("arguments[0].scrollIntoView();", target)

target.click()

四、不确定情况处理

(1)有可能出现的弹窗

在填表过程中,有些地方有可能出现一个弹框也有可能不出现,这个时候,无论这个弹窗是什么,用try..except语句处理就可以解决

js触发的弹窗:

try:

driver.find_element_by_css_selector("input[value=" 确定 "]").click()exceptException as e:pass

网页alert弹窗:

try:

driver.switch_to.alert.dismiss()exceptException:pass

dismiss()对应的是alert弹窗的”取消“项,accept()对应的是”确定“项,driver.switch_to.alert.text 可以获得弹窗的文本内容。

(2)数量不定的弹窗

对上文提到的多个提示框情况,除了用 query=driver.find_elements_by_css_selector("input[value=" 确定 "]") 一次性找到所有元素再顺序或倒序点击之外,还可以用一个while循环解决

while(1):try:

driver.find_element_by_css_selector("input[value=" 确定 "]").click()exceptException as e:break

(3)网络延迟

有些网页在点击查询信息之后需要加载一段时间,加载中的页面是找不到我们接下来想找的元素的,因此程序就会报错,此时有两种解决方法。

一种是固定等待一段时间,等待网页加载完毕,这种方法的缺点是很难找到等待的最佳时间,太短的话页面还没加载完,太长就影响效率

time.sleep(2)

另一种是用一个while循环一直寻找下一个我们要找的元素

while(1):try:

driver.find_element_by_id("continueTrade").click()break

exceptException:pass

这种方法的前提是下一个要找的元素必定会出现

五、frame处理

总结起来就是:frameset不用切,frame层层切。最好一系列填表操作完后都用 driver.switch_to.default_content() 回到原文档,这样不容易混乱

这里再补充一点frame没有id时的切入方法

frame= self.driver.find_element_by_xpath("/html/body/div[12]/iframe")#先定位frame位置,用一个变量储存这个节点

self.driver.switch_to_frame(frame)#再切入这个节点

六、excel数据读写

excel数据读写十分简单,看代码就好了:

defread(file):

data= xlrd.open_workbook(file)#打开excel文件

table = data.sheets()[0]#读取第一个sheet的数据

phones = table.col_values(0)#以列表形式存储第一列数据

peoples = table.col_values(1)#以列表形式存储第二列数据

returnphones,peoplesdefwrite(result):

file=xlwt.Workbook()#创建一个excel文件

table = file.add_sheet("sheet1")#添加一个sheet

for i in range(len(result)):#写入数据

table.write(i,0,result[i][0])

table.write(i,1,result[i][1])

table.write(i,2,result[i][2])

file.save("result.xls")

结语:希望技术能让人们从无意义的重复劳动中解脱:D

python网页自动化填写-用python-webdriver实现自动填表相关推荐

  1. python 网页自动化实现

    一.环境要求 1.Python 2.selenium库 3.谷歌浏览器 二.网页自动化实现步骤 1 下载selenium库 pip install selenium 2 安装谷歌浏览器webdrive ...

  2. python 网页编程_通过Python编程检索网页

    python 网页编程 The internet and the World Wide Web (WWW), is probably the most prominent source of info ...

  3. python网页版_经典python学习教程:20行代码打造一个微信群聊助手,解放双手

    今天的Python学习教程教大家如何用20行Python代码实现微信群聊助手,可以用来活跃群气氛,好多群主创建完群后,拉完一群人,之后就一片寂静,有个群聊助手,就可以帮忙活跃群里气氛,通过今天在自己的 ...

  4. python 打印机自动化_用Python实现定时自动化收取蚂蚁森林能量,再也不怕被偷了...

    1. 概述 提到蚂蚁森林,大家应该都知道,你是否有因忘记收取能量而被好友收取的经历呢? 如果你不是蚂蚁森林重度用户,被别人收取了能量可能对你来说没什么. 但如果你是蚂蚁森林重度用户,遇到能量被偷 .. ...

  5. python 网页自动化框架_python+selenium自动化框架

    项目以前的UI自动化大概是这样分层的 1.Common功能层:一些经常被调用的基本常用操作,用来完成某项具体的功能,与具体的业务无关.比如常用的封装: --将元素定位方法重新封装 --封装上下左右滑动 ...

  6. 用python做自动化控制-用 Python 自动化办公能做到哪些有趣或有用的事情?

    首先,我是一名数据分析师-- But,我还有一项短信资源管理的工作,从收集各部门需求开始,到检查文案策略等,最后在系统上创建,整个流程每天都要重复进行3-4个小时,工作特别繁琐而缺乏技术性,不过这个工 ...

  7. python 网页生成pdf_pdfkit | 利用python实现html文件转pdf

    在用jupyter notebook写代码文档的时候,有时需要导出pdf版本,但jupyter会报错.我在想,除了网上的debug方法,还没有其他方案可以生成pdf. 度娘搜了下,很多博客推荐Pyth ...

  8. python手机自动化命令_Appium+Python实现自动化登录

    #Appium+Python实现自动化测试 Appium简介 官方的概述为: Appium is an open source test automation framework for use wi ...

  9. python流程自动化_基于Python的SAP流程自动化

    财务的自我修养,微信公众号:机智出品(jizhjchupin),文中各类数据文件均可于公众号内下载 痛点:SAP部分业务操作重复化.规律化: 目标:无意义的重复无脑操作全部自动化: 工具:Python ...

  10. 【Python】自动化办公之Excel拆分并自动发邮件

    文章目录 前言 1.需求 2.需求解析 3.代码实现 总结 前言 今天我们来分享一个真实的自动化办公案例,希望各位 Python 爱好者能够从中得到些许启发,在自己的工作生活中更多的应用 Python ...

最新文章

  1. 安装编译PHP7.X
  2. 文件字符输出流 FileWritter java
  3. 如何针对数据进行分析
  4. 算法怎么就这么难?----使用欧几里得算法求两数的最大公约数
  5. mybatis开发中遇到的小问题
  6. 中值滤波器 median filter
  7. win7 旗舰版 秘钥 联网激活
  8. Facebook想要成为下一个微信,难!
  9. 七参数对不同坐标系统的转换
  10. webservice概述及cxf在Java开发中应用(三) cxf客户端开发
  11. 利用 GDB 快速阅读 postgresql 的内核代码
  12. JetBrains DataGrip安装和使用的详细教程
  13. 张艾迪(创始人):世界冠军.世界第一
  14. VnlnHub Ripper
  15. java自动违例设计,Java违例控制,java违例
  16. 农产品商城毕业设计,农产品销售系统毕业设计,农产品电商毕业设计论文方案需求分析作品参考
  17. VCS和Verdi联合仿真
  18. 用电子计算机控制海洋牧场,教师用书2016 2017学年高中地理第2单元开发海洋资源第3节海洋生物资源及其开发整合提升.doc...
  19. java.lang.IllegalArgumentException: Invalid character found in method name. HTTP method names must b
  20. 2013-12-IOS 获取最新设备型号方法

热门文章

  1. java 重写或者覆父类方法的使用throws 抛出异常,为什么要小于父类父类,java面试点
  2. AD16原理图库加封装报Footprint not found
  3. MSP430 MSP430F5529 LaunchPad实验板
  4. 单片机学习(三)中断
  5. 目标检测 YOLO 系列:快速迭代 YOLO v5
  6. HTML文档的基本结构
  7. 100多本炒股电子书网盘自由下载!
  8. IDEA修改某个文件的编码
  9. 微信公众号如何排版好看?教你三招技巧
  10. 计算机统计字符数,如何在电脑上统计文字字数及标点个数