web自动化之验证码识别解决方案
验证码识别解决方案
对于web应用程序来讲,处于安全性考虑,在登录的时候,都会设置验证码,验证码的类型种类繁多,有图片中辨别数字字母的,有点击图片中指定的文字的,也有算术计算结果的,再复杂一点就是滑动验证的。诸如此类的验证码,对我们的系统增加了安全性的保障,但是对于我们测试人员来讲,在自动化测试的过程中,无疑是一个棘手的问题。
1、web自动化验证码解决方案
一般在我们测试过程中,登录遇到上述的验证码的时候,有以下种解决方案:
第一种、让开发去掉验证码
第二种、设置一个万能的验证码
第三种、通过cookie绕过登录
第四种、自动识别技术识别验证码
2、自动识别技术识别验证码
前三种解决方案,想必大家都比较了解,本文重点阐述第四种解决方案,也就是验证码的自动识别,关于验证码识别这一块,可以通过两个方案来解决,
第一种是:OCR自动识别技术,
第二种是:通过第三方打码平台的接口来识别。
OCR识别技术
OCR中文名称光学识别, tesseract是一个有名的开源OCR识别框架,它与Leptonica图片处理库结合,可以读取各种格式的图像并将它们转化成超过60种语言的文本,可以不断训练自己的识别库,使图像转换文本的能力不断增强。如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。那么接下来给大家介绍一下如何使用tessract来识别我们的验证码。
关于OCR自动识别这一块,需要大家安装Tesseract,并配置好环境,步骤如下
1)、安装tesseract
适用于Tesseract 3.05-02和Tesseract 4.00-beta的
Windows安装程序下载地址:https://github.com/UB-Mannheim/tesseract/wik。
2)、加入培训数据
tesseract 默认只能识别英文,如果您想要识别其他语言,则需要下载相应的培训数据
下载地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files,
下图为中文数据包
我们只做中文,暂时下载一个中文的文字训练数据就可以 ,然后将.traineddata文件复制到安装之后的'tessdata'目录中。C:\OCR\Tesseract-OCR\tessdata
3)、配置环境变量
要从任何位置访问tesseract-OCR,您可能必须将tesseract-OCR二进制文件所在的目录添加到Path变量中C:\OCR\Tesseract-OCR
。
安装后tesseract之后 ,并不能直接在python中使用,我们要想在python中使用,需要安装pytesseract模块我们可以通过 pip 安装
pip install pytesseract
python中识别验证码图片内容
安装好后。找一张验证码图片,如下图(命名为test.jpg),放在当前python文件同级目录下面,
使用 PIL中的Image中的open方法打开验证码图片,调用pytesseract.image_to_string方法,可以识别图片中的文字,并且转换成字符串,如下面代码所示。
import pytesseractfrom PIL import Imagepic = Image.open('test.jpg')# pic 为打开的图片,lang指定识别转换的语言库text = pytesseract.image_to_string(pic,lang='chi_sim')print(text)
通过上述方法能识别简单的验证码,但是存在一定的问题,识别的精度不高,对于一些复杂一点,有干扰线的验证码无法正确识别出结果。
接下来给大家介绍一下第二种识别的方案,第三方的打码平台识别
打码平台识别验证码
第三方的打码平台相对于OCR来讲,优势在于识别的精准度高,网络上的第三方打码平台很多,百度随便一搜就有几十个,这个给大家列举几个,如下所示:
网络上的第三方打码平台众多,这里小编选择超级鹰这个第三方的平台来给大家做演示。
首先登录我们需要注册登录超级鹰这个网站 www.chaojiying.com,进入之后我们找到python对应的开发文档并下载,
下载开发文档
下载之后解压缩,得到如下文件
第三方打码平台的接口分析
我们打开chaojiying.py这个文件后,会发现这个文件中给出了的接口非常简单,如下所示
首先第一步创建一个用户对象:三个参数(账号,密码,软件ID),账号密码就是该网站的账号密码,那么软件ID呢?软件ID我们可以在用户中心找到软件ID,然后进去点击生成一个软件ID(如下图),
第二行代码就是打开一个要识别的验证码图片,并读取内容,
第三行,调用PostPic方法识别验证码,两个参数(验证码图片内容,验证码类型),关于验证码类型,请参考该网站的价格体系(如下图),根据验证码类型选择对应的数值传入。
结果提取:
PostPic返回的是一个字典类型的数据,识别的验证码在该字典中的pic_str这个键中
res = cjy.PostPic(im, 1902) # 1902 验证码类型 官方网站>>价格体系 3.4+版 print 后要加()data = res['pic_str'] print(data)
第三方接口给大家介绍到这里,接下来我们实际应用到登录中去。
提示:打码平台一般都是收费的(差不多是一分钱,识别一次)
3、自动识别验证码登录案例
登录案例
接下来以超级鹰这个网站为列,使用web自动化测试框架selenium来实现验证码识别自动登录,
需要用到的库有selenium、pillow、time,和我们上面下载的超级鹰的接口文件
环境安装
1、selenium安装
pip install selenium
2、chromedriver 安装
# 下载地址http://chromedriver.storage.googleapis.com/index.html
下载和自己chrome浏览器对应的chromedriver版本,
配置环境变量
3、pillow模块安装(处理图像的库)
pip install pillow
实现步骤分析
1、获取账号密码输入框:输入账号密码
2、获取验证码图片
将当前页面截图
选择图片元素,获取上下左右位置
使用PIL模块对页面图片进行再次截图(获取验证码图片)
将验证码图片保存
3、调用第三方接口识别验证码
4、输入验证码结果
5、点击登录
1
具体代码实现
1、selenium打开登录页面
import timefrom selenium import webdriverfrom PIL import Imagefrom chaojiying import Chaojiying_Client# 创建一个浏览器browser = webdriver.Chrome()# 访问登录页面url = 'http://www.chaojiying.com/user/mysoft/'browser.get(url)time.sleep(1) # 暂停一秒钟
2、获取账号密码输入框:输入账号密码
# 选择账号、密码输入栏,输入对应的账号密码input_user=browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/p[1]/input')# 输入账号input_user.send_keys('账号')input_pwd=browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/p[2]/input')# 输入密码input_pwd.send_keys('密码')
2、获取验证码图片
将当前页面截图
# 对当前页面进行截图browser.save_screenshot('login.png')
选择图片元素,获取上下左右位置
# 选择验证码图片的元素yzm_btn = browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/div/img')# 获取图片元素的位置loc = yzm_btn.location# 获取图片的宽高size = yzm_btn.size
获取验证码上下左右的位置,此处要注意查看电脑显示的缩放比列(如下图),根据比列乘以相应的系数,我这边的显示比列是125,那么对于的系数就是1.25(如果你的是150,那么就乘以1.5)
left = loc['x']*1.25 # 计算左边界top = loc['y']*1.25 # 计算上边界right = (loc['x'] + size['width'])*1.25 # 计算右边界botom = (loc['y'] + size['height'])*1.25 # 计算下边界# 将上下左右边界值放到元祖中(注意顺序:左 上 右 下)local = (left, top, right, botom)
使用PIL模块对页面图片进行再次截图(获取验证码图片),将验证码图片保存
pic = PIL.Image.open('file')pic.crop(local)pic.sava('zym,png')
3、调用第三方接口识别验证码
# 识别验证码cjy = Chaojiying_Client('账号', '密码', '软件ID') # 用户中心>>软件ID 生成一个im = open('yzm.png', 'rb').read() # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//res = cjy.PostPic(im, 1902) # 1902 验证码类型 data = res['pic_str']print(data)
4、输入验证码结果
# 在输入框输入验证码yzm_input = browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/p[3]/input')yzm_input.send_keys(data)
5、点击登录
# 点击登录submit = browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/p[4]/input')submit.click()
import timefrom selenium import webdriverfrom PIL import Imagefrom chaojiying import Chaojiying_Client# 创建一个浏览器browser = webdriver.Chrome()# 访问登录页面url = 'http://www.chaojiying.com/user/mysoft/'browser.get(url)time.sleep(1) # 暂停一秒钟# 选择账号、密码输入栏,输入对应的账号密码input_user = browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/p[1]/input')input_user.send_keys('qq121292679')input_pwd = browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/p[2]/input')input_pwd.send_keys('546245426')# 获取验证码的图片,并进行识别,将识别的结果,输入到验证码输入框中# 对当前页面进行截图browser.save_screenshot('login.png')# 选择验证码图片的元素yzm_btn = browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/div/img')# 获取图片元素的位置loc = yzm_btn.location# 获取图片的宽高size = yzm_btn.size# 获取验证码上下左右的位置left = loc['x']*1.25top = loc['y']*1.25right = (loc['x'] + size['width'])*1.25botom = (loc['y'] + size['height'])*1.25val = (left, top, right, botom)# 打开网页截图login_pic = Image.open('login.png')# 通过上下左右的值,去截取验证码yzm_pic = login_pic.crop(val)yzm_pic.save('yzm.png')# 识别验证码cjy = Chaojiying_Client('qq121292679', '546245426', '96001') # 用户中心>>软件ID 生成一个替换 96001im = open('yzm.png', 'rb').read() # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//res = cjy.PostPic(im, 1902) # 1902 验证码类型 官方网站>>价格体系 3.4+版 print 后要加()data = res['pic_str']print(data)# 在输入框输入验证码yzm_input = browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/p[3]/input')yzm_input.send_keys(data)# 点击登录submit = browser.find_element_by_xpath('/html/body/div[3]/div/div[3]/div[1]/form/p[4]/input')submit.click()
1
转载于:https://www.cnblogs.com/nmb-musen/p/10954287.html
web自动化之验证码识别解决方案相关推荐
- 自动化测试之验证码识别
自动化测试之验证码识别 前序工作:使用jpress进行测试(需要注册安装),需要安装Java,tomcat,mysql,这里请自行百度安装.然后运行tomcat,以管理员身份运行cmd打开mysql, ...
- 论坛群发,论坛顶贴验证码识别解决方案
针对论坛群发以及论坛顶贴机的使用者在使用的时候可能都会遇到这样的问题,我们经常会给大量的验证码所阻隔. 比如说,今天我对一个论坛的一千个帖子进行顶贴,然而我会有一千个验证码产生,如果一个大字速度较慢, ...
- 告别手动输入验证码!Web自动化测试带你解锁验证码处理和Cookie机制,跨越测试瓶颈!
Web自动化之验证码处理及cookie机制 在Web自动化测试中,验证码的处理一直是一个难点.如果没有自动化处理方式,手动输入验证码将会非常耗时且容易出错.本文将为大家介绍如何通过Python实现验证 ...
- 验证码识别服务提供商
目前国内最优秀的验证码识别解决方案提供商只有打码兔一家,该平台采用软件识别+人工修正,正确率达99%. 接入简单,仅需上传验证码,3秒内回传识别结果. 1.dama2是一个高性能,高稳定的云端答题,打 ...
- 2.2.7 Web自动化验证码处理
前言 对于测试人员来说,不管是进行性能测试还是自动化测试其验证码处理都是一个比较棘手的问题:但是对于web 应用来说,大部分的系统在用户登录时都要求用户输入验证码,且验证码的种类众多,例如:纯数字.纯 ...
- Pythonseleniumtesseract自动化测试随机码、验证码(Captcha)的OCR识别解决方案参考...
在自动化测试或者安全渗透测试中,Captcha验证码的问题经常困扰我们,还好现在OCR和AI逐渐发展起来,在这块解决上越来越支撑到位. 我推荐的几种方式,一种是对于简单的验证码,用开源的一些OCR图片 ...
- Python爬虫过程中验证码识别的三种解决方案
在Python爬虫过程中,有些网站需要验证码通过后方可进入网页,目的很简单,就是区分是人阅读访问还是机器爬虫.验证码问题看似简单,想做到准确率很高,也是一件不容易的事情.为了更好学习爬虫,后续推文中将 ...
- Pythonseleniumtesseract自动化测试随机码、验证码(Captcha)的OCR识别解决方案参考
Python&selenium&tesseract自动化测试随机码.验证码(Captcha)的OCR识别解决方案参考 参考文章: (1)Python&selenium& ...
- 写爬虫遇到验证码识别问题的解决方案
写爬虫遇到验证码识别问题的解决方案 遇到滑块问题 在写爬虫的时候,经常会遇到滑块问题,很多次都想过尝试如何攻破滑块,但是每次都没成功,除了最开始的极验滑块,当时通过原图和滑块图的对比,能够得出缺口坐标 ...
最新文章
- 刘涵 美国 西北大学 计算机,西北大学关于表彰2010-2011学年度学生先进集体-红帆.doc...
- 机器学习实战:使用lightGBM预测饭店流量
- 一些简单的例子让你在Java中能更好的学习并理解循环结构(1)!
- 95-190-035-源码-window-Time Window 实现
- Linux下端口占用解决方法
- java图片处理工具类
- 设计模式:JavaScript
- 解决Nginx + PHP(FastCGI)遇到的502 Bad Gateway错误[原创]
- Centos7.4 安装Docker CE版
- snownlp抛出错误_9snowNLP常见用法
- python-InputWhile基础知识
- VS2019登录不上
- 机器学习(四):w·x+b模型(1)
- 计算机给文件重命名快捷键,批量重命名文件 一个F2快捷键即可全部搞定
- UML设计系列(6):活动图
- SpringCloud Alibaba(五)Nacos raft协议介绍
- 广州优漫动游公司:UI设计中的ps要学多久
- debian 网络代理_【Debian】设置代理服务器
- 基于Springboot+vue的传统服装汉服销售购物商城 elementui
- 【Ubuntu】——ubuntu18.04配置静态ip