目前很多网页都有滑动验证,目的就是防止不良爬虫扒他们网站的数据,我这次本着学习的目的使用Java和selenium学习解决滑动验证的问题,前前后后花了一周时间(抄代码),终于成功了某音的滑动验证!

效果展示:

一、需求分析

要模拟滑动验证总共就两步:

1、找到小滑块

2、按住小滑块,滑动一段距离

第一步很简单,直接通过xPath找到,比较重要和困难的是第二步中距离的问题,我花了那么多的时间在这次学习中,主要是耗在计算需要滑动的距离。

在面向百度编程的过程中看到了很多学习资料,大体上是同一个方法:使用opencv计算机视觉工具让两张处理过的图像进行比对,从而计算出滑动的距离。

二、模拟步骤

1、使用selenium打开某音网页

直接打开

2、找到小滑块以及小滑块所在的背景图

打开前端调式工具,F12,定位小滑块和背景图的位置,复制xpath,然后用selenium查找元素

eg: driver.findElement(By.xpath("小滑块的xpath"));

3、计算小滑块需要滑动的距离

这一部分是最重要的,所以需要重点记录,学习一次,以后遇到同样的问题就能马上解决。

步骤:

1、保存小滑块图像和小滑块背景图

如图,使用selenium可以很方便的获取到这两张图片。

2、将背景图进行指定比例和区域的剪裁

在这一步中有两个比较重要的参数:

1、小滑块的top值

2、网页当前显示的图像和原图像的大小比例,在计算滑动距离需要用到

剪裁用的是 BufferedImage的getSubimage方法,一共有四个参数

image = image.getSubimage(x, y, width, height);

x和y 为截图后图片左上角的坐标值,如果x和y都是0,那么就从原图的左上角开始截起,width和height分别是截图后图片的长和宽。

在某音的滑动验证中,x设置成小滑块的宽度,y设置为小滑块的top,top也就是小滑块距离背景图上边界的像素

width设置为背景图原来的宽度-小滑块的宽度

height设置为小滑块的高度

最后截出来的图片类似这样,一定要把背景图的缺口包含进去

3、将小滑块图像二值化

从这里开始要用到opencv(开源计算机视觉库)

首先将保存的小滑块图片转灰度,然后将转灰度的下滑快二值化,二值化就是非黑即白,了解过后才知道目前很多机器识别使用的原理和这个差不多。

代码如下:

           //小滑块Mat对象Mat s_mat = Imgcodecs.imread(sFile.getPath());// 转灰度图像Mat s_newMat = new Mat();Imgproc.cvtColor(s_mat, s_newMat, Imgproc.COLOR_BGR2GRAY);// 二值化图像binaryzation(s_newMat);binaryzation是一个方法,在源码中有Imgcodecs.imwrite(sFile.getPath(), s_newMat);

4、将二值化的小滑块和剪裁的背景图进行比对

代码我是抄的,看不懂,就不放在这了。

我研究了好久,因为没有学习过opencv,计算过程调用的几个方法我还不是很懂,但是最后的返回值需要根据实际情况来调整,要不然验证成功率几乎为0。

4、按住小滑块并滑动

滑动过程不能让程序一步走完,不然网页会认为你是爬虫,即使能滑到指定位置也会验证失败。滑动过程应该尽量模拟人工操作。

     /*** 模拟移动滑块* @param driver* @param ele 小滑块* @param distance 滑动距离*/public void move(ChromeDriver driver,WebElement ele,int distance) {int randomTime = 0;if (distance > 90) {randomTime = 250;} else if (distance > 80 && distance <= 90) {randomTime = 150;}List<Integer> track = getMoveTrack(distance - 2);int moveY = 1;try {Actions actions = new Actions(driver);actions.clickAndHold(ele).perform();Thread.sleep(200);for (int i = 0; i < track.size(); i++) {actions.moveByOffset(track.get(i), moveY).perform();Thread.sleep(new Random().nextInt(300) + randomTime);}Thread.sleep(200);actions.release(ele).perform();} catch (Exception e) {e.printStackTrace();}}/*** 根据距离获取滑动轨迹* @param distance 需要移动的距离* @return*/public static List<Integer> getMoveTrack(int distance) {List<Integer> track = new ArrayList<>();// 移动轨迹Random random = new Random();int current = 0;// 已经移动的距离int mid = distance * 4 / 5;// 减速阈值int a = 0;int move = 0;// 每次循环移动的距离while (true) {a = random.nextInt(10);if (current <= mid) {move += a;// 不断加速} else {move -= a;}if ((current + move) < distance) {track.add(move);} else {track.add(distance - current);break;}current += move;}return track;}

三、学习过程中比较棘手的问题

1、截图问题

我一开始截出来的图包含的小滑块缺口总是不完整的,经过一番截图参数调试后,我发现某音小滑块top的单位他丫的是em,这像素的大小用em???真不愧是某音,别家都是px,你偏偏要em......然后我又开始面向百度,最后得到的结论是默认浏览器1em = 10px,我在top *10之后还是截不到完整的小滑块缺口。

我这会直接上网页调试工具,最终调式出来1em约等于100px,最后top *100截出来的图片就对了。

2、返回结果与实际滑动距离相差太多,甚至无规律可循

好不容易把代码敲完,之后的测试却一直是失败的,无论在计算的结果加减乘除某个数值都不行。

导致原因:因为在网页上显示的图片和实际上图片大小是不同的,依靠opencv比对计算出来的滑动距离是按照原图大小计算的。

解决办法:只需要将返回值乘上显示图片与原图宽度的比例即可。

注意:因为之前在获取小滑块图像时,top的值为网页显示的大小,计算过程中是按照原图大小计算的,所以获取的top值乘以100后还要乘上原图宽度与显示图像宽度的比例。

3、openCV的下载安装

官网实在是太慢了,直接搜索安装包下载了,安装配置都是按照csdn上的教程弄得。

四、总结

这次学习经历前后共花了一周,恰逢考试周,考试科目大多没有复习好,也不知是不是亏了,滑动验证是网页登录或者搜索会经常遇到的问题,模拟滑动解锁主要能够锻炼我们解决问题的能力。

图像在计算机中实际是一个个像素组成的,每一个像素包含三个数值,所以才能够对图像进行二值化、比对。比对过程是在看不懂,不过也不必每一行代码都看懂,能够解决问题才是最重要的。

以下为源码(仅用于学习交流):

package indi.imitateslide;import org.apache.commons.io.FileUtils;
import org.opencv.core.*;
import org.opencv.imgcodecs.Imgcodecs;
import org.opencv.imgproc.Imgproc;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.interactions.Actions;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.Random;/*** 自动化模拟滑动验证*/
public class ImitateSlide {//驱动private ChromeDriver driver;public ImitateSlide(ChromeDriver driver){this.driver = driver;}public void slide(String url,String sliderXpath) throws Exception {driver.get(url);Thread.sleep(2000);//获取滑块WebElement ele = waitWebElement(driver,By.xpath(sliderXpath),500);//获取滑动背景图String bUrl = waitWebElement(driver,By.xpath("//*[@id=\"captcha-verify-image\"]"),500).getAttribute("src");//获取小滑块图片String sUrl = waitWebElement(driver,By.xpath("//*[@id=\"captcha_container\"]/div/div[2]/img[2]"),500).getAttribute("src");//获取高度String topStr = waitWebElement(driver,By.xpath("//*[@id=\"captcha_container\"]/div/div[2]/img[2]"),500).getAttribute("style").substring(16,20);System.out.println("字符串高度是: "+topStr);double dTop = Double.parseDouble(topStr);dTop *= 160;int top = (int) dTop;System.out.println("最终高度是: "+top);//计算移动的距离double dDis = Double.parseDouble(getDistance(bUrl,sUrl,top));System.out.println("计算出的距离为: "+dDis);int distance = (int) dDis;System.out.println("最终移动的距离为: "+distance);Thread.sleep(500);//滑动move(driver,ele,distance);Thread.sleep(1000);driver.quit();}/*** 模拟移动滑块* @param driver* @param ele* @param distance*/public void move(ChromeDriver driver,WebElement ele,int distance) {int randomTime = 0;if (distance > 90) {randomTime = 250;} else if (distance > 80 && distance <= 90) {randomTime = 150;}List<Integer> track = getMoveTrack(distance - 2);int moveY = 1;try {Actions actions = new Actions(driver);actions.clickAndHold(ele).perform();Thread.sleep(200);for (int i = 0; i < track.size(); i++) {actions.moveByOffset(track.get(i), moveY).perform();Thread.sleep(new Random().nextInt(300) + randomTime);}Thread.sleep(200);actions.release(ele).perform();} catch (Exception e) {e.printStackTrace();}}/*** 根据距离获取滑动轨迹* @param distance 需要移动的距离* @return*/public static List<Integer> getMoveTrack(int distance) {List<Integer> track = new ArrayList<>();// 移动轨迹Random random = new Random();int current = 0;// 已经移动的距离int mid = distance * 4 / 5;// 减速阈值int a = 0;int move = 0;// 每次循环移动的距离while (true) {a = random.nextInt(10);if (current <= mid) {move += a;// 不断加速} else {move -= a;}if ((current + move) < distance) {track.add(move);} else {track.add(distance - current);break;}current += move;}return track;}/*** 获取滑块移动的距离* @param bUrl 滑动背景图* @param sUrl 小滑块* @param top 高度* @return*/public String getDistance(String bUrl, String sUrl, int top) {System.loadLibrary( Core.NATIVE_LIBRARY_NAME );File bFile = new File("D:\\douyin_b1.jpg");File sFile = new File("D:\\douyin_s1.jpg");try {//将图片复制保存到指定路径FileUtils.copyURLToFile(new URL(bUrl), bFile);FileUtils.copyURLToFile(new URL(sUrl), sFile);BufferedImage bgBI = ImageIO.read(bFile);BufferedImage sBI = ImageIO.read(sFile);// 裁剪System.out.println("背景图片的宽度是: "+bgBI.getWidth());System.out.println("小图片的高度是:"+sBI.getHeight());bgBI = bgBI.getSubimage(sBI.getWidth(), top, bgBI.getWidth() - 110, sBI.getHeight());ImageIO.write(bgBI, "png", bFile);Mat s_mat = Imgcodecs.imread(sFile.getPath());Mat b_mat = Imgcodecs.imread(bFile.getPath());// 转灰度图像Mat s_newMat = new Mat();Imgproc.cvtColor(s_mat, s_newMat, Imgproc.COLOR_BGR2GRAY);// 二值化图像binaryzation(s_newMat);Imgcodecs.imwrite(sFile.getPath(), s_newMat);//让两张图片进行比对int result_rows = b_mat.rows() - s_mat.rows() + 1;int result_cols = b_mat.cols() - s_mat.cols() + 1;Mat g_result = new Mat(result_rows, result_cols, CvType.CV_32FC1);Imgproc.matchTemplate(b_mat, s_mat, g_result, Imgproc.TM_SQDIFF); // 归一化平方差匹配法// 归一化相关匹配法Core.normalize(g_result, g_result, 0, 1, Core.NORM_MINMAX, -1, new Mat());//以下看不懂Point matchLocation = new Point();Core.MinMaxLocResult mmlr = Core.minMaxLoc(g_result);matchLocation = mmlr.maxLoc; // 此处使用maxLoc还是minLoc取决于使用的匹配算法Imgproc.rectangle(b_mat, matchLocation,new Point(matchLocation.x + s_mat.cols(), matchLocation.y + s_mat.rows()), new Scalar(0, 255, 0, 0));//返回值就是要移动的距离,在这里需要加上被裁剪掉的宽度再减去小滑块的宽度,最后乘上相应的比例。return "" + ((matchLocation.x + s_mat.cols()) / 1.62);} catch (Throwable e) {e.printStackTrace();return null;} finally {//删除保存的滑块以及背景图片bFile.delete();sFile.delete();}}/*** 将图像二值化,固定代码* @param mat*/public static void binaryzation(Mat mat) {int BLACK = 0;int WHITE = 255;int ucThre = 0, ucThre_new = 127;int nBack_count, nData_count;int nBack_sum, nData_sum;int nValue;int i, j;int width = mat.width(), height = mat.height();// 寻找最佳的阙值while (ucThre != ucThre_new) {nBack_sum = nData_sum = 0;nBack_count = nData_count = 0;for (j = 0; j < height; ++j) {for (i = 0; i < width; i++) {nValue = (int) mat.get(j, i)[0];if (nValue > ucThre_new) {nBack_sum += nValue;nBack_count++;} else {nData_sum += nValue;nData_count++;}}}nBack_sum = nBack_sum / nBack_count;nData_sum = nData_sum / nData_count;ucThre = ucThre_new;ucThre_new = (nBack_sum + nData_sum) / 2;}// 二值化处理int nBlack = 0;int nWhite = 0;for (j = 0; j < height; ++j) {for (i = 0; i < width; ++i) {nValue = (int) mat.get(j, i)[0];if (nValue > ucThre_new) {mat.put(j, i, WHITE);nWhite++;} else {mat.put(j, i, BLACK);nBlack++;}}}// 确保白底黑字if (nBlack > nWhite) {for (j = 0; j < height; ++j) {for (i = 0; i < width; ++i) {nValue = (int) (mat.get(j, i)[0]);if (nValue == 0) {mat.put(j, i, WHITE);} else {mat.put(j, i, BLACK);}}}}}/*** 元素延时加载,等到元素出现时返回该元素,超过500*0.05s后无响应则抛出NOSuchElement异常* @param driver* @param by* @param count* @return WebElement* @throws Exception*/private static WebElement waitWebElement(WebDriver driver, By by, int count) throws Exception {WebElement webElement = null;boolean isWait = false;for (int k = 0; k < count; k++) {try {webElement = driver.findElement(by);if (isWait)System.out.println(" ok!");return webElement;} catch (org.openqa.selenium.NoSuchElementException ex) {isWait = true;if (k == 0)System.out.print("waitWebElement(" + by.toString() + ")");elseSystem.out.print(".");Thread.sleep(50);}}if (isWait)System.out.println(" outTime!");return null;}
}

基于Java+selenium+opencv模拟网页滑动验证相关推荐

  1. 使用java + selenium + OpenCV破解网易易盾滑动验证码

    使用java + selenium + OpenCV破解网易易盾滑动验证码 网易易盾:dun.163.com * 验证码地址:https://dun.163.com/trial/jigsaw * 使用 ...

  2. java opencv 开发环境_Java + opencv学习:在Eclipse下配置基于Java的OpenCV开发环境

    最近研究OpenCV想用java进行开发,因此研究了一下怎么在Eclipse中配置基于java的Opencv. 第一步:先到OpenCV官网下载你想要的版本,假设使用的是2.4.6版本.这里附上下载地 ...

  3. 【java毕业设计】基于java+swing的模拟写字板设计与实现(毕业论文+程序源码)——模拟写字板

    基于java+swing的模拟写字板设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+swing的模拟写字板设计与实现,文章末尾附有本毕业设计的论文和源码下载地址哦.需要下载开题报 ...

  4. 基于java前行国家公务员模拟笔试系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署

    基于java前行国家公务员模拟笔试系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署 基于java前行国家公务员模拟笔试系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部 ...

  5. java jaas_基于Java JAAS表单的身份验证

    java jaas 使用JAAS实现登录模块是一个高级主题,而且大多数开发人员也很少有机会参与这种开发. 但是JAAS登录模块的基本实现不是那么难实现,这是因为我打算将其发布. 在这里,我正在解释如何 ...

  6. 记录 java + selenium脚本实现网页自动化

    java + selenium + Chrome 文章目录 一.项目引入selenium 二.下载chromedriver 三.代码测试 一.项目引入selenium 在pom文件中加入seleniu ...

  7. 基于Java + selenium 爬取某网站千张图片

    预览(可以根据循环次数爬取大量图片) 一.网页分析 1 点击F12进入检查,将小箭头移到网页中随便一张图片上 2 进一步我们可以发现每一张图片的链接都包含在<ul>标签的子标签<li ...

  8. 基于Java语言实现模拟银行存取款业务系统

    资源下载地址:https://download.csdn.net/download/sheziqiong/85820969 1.项目简介 本项目的主要功能是模拟银行的存取款业务,当用户登录时需判断银行 ...

  9. java opencv 环境_基于java的OpenCV环境搭建

    一.OpenCV下载安装 选择相应的版本下载保存就好(不过官网下载有时候真滴慢还会连不上.....)网盘链接有windows ios Android 版本安装包可提取 链接:https://pan.b ...

最新文章

  1. golang导入包的几个说明:import
  2. 【JAVA编码专题】总结
  3. 前端学习(3024):vue+element今日头条管理-关于默认子路由的问题
  4. python @修饰符_python函数修饰符@的使用方法解析
  5. python如何调用阿里云接口_Python调用aliyun API设置阿里云负载均衡虚拟服务器组权重...
  6. windows7系统做文件服务器拒绝,Win7提示qq服务器拒绝了您发送离线文件
  7. php explore im,浏栏器-explore.class.php
  8. 关于灵魂安放,年轻人如何选择适合自己的城市呢?学长有话说
  9. java过滤器流程_DRF filter 过滤器实现流程
  10. python建模_python建模实例详解
  11. Maven使用 | 多模块下的打包问题
  12. 12、URL后端编码解码工具
  13. 无法修改IE浏览器主页解决方案(主页绑架)
  14. Win7 远程桌面限制IP
  15. echart柱状图即显示数值,又显示百分比
  16. 日紫白飞星算法_年、月、日、时紫白飞星法!
  17. c# EASYUI+MVC filebox示例
  18. 蚂蚁区块链第8课 如何创建新的账户,获取私钥和identity标识?
  19. 6-ipv6基础知识之-有状态和无状态自动配置
  20. STM32F0 、F1 在软件程序中写读保护选项字节(Option Bytes)

热门文章

  1. 粉丝猎手发布“云手机设备”,云手机居然可以本地化部署
  2. Ubuntu系统下网络连接不上的问题!!!
  3. java 二进制转十进制的算法_java中十进制数转换二进制数
  4. 专访吴恩达:加入百度一切比预想的要快
  5. Windows使用腾讯云GPU跑深度学习
  6. cdoj 1322 柱爷把妹(吃惊高清重制版)
  7. HTTP 协议详解和版本介绍(HTTP发展历史)
  8. 自定义PMD检测的类型集合(详解)
  9. 接上一篇:【Vue 项目打包后访问报错:Uncaught TypeError: Cannot read property 'call' of undefined】
  10. 【算法实验三】(BFS-分支限界)【木乃伊迷宫】