背景

由于要爬取的页面,每个链接的请求都是点击之后js动态发起的,目标数据也多是js动态生成的,所以使用selenium工具+webdriver(调试用的是chrome,具体使用准备用phantomjs).

模拟登录之后,模拟查询之后,得到如下列表

可以看到链接是不能直接拿到的。

接下去步骤是这样的:

得到链接的集合

遍历集合,点击链接,得到对应的详情页面

通过页面句柄转到详情页面,拿到目标数据,再转回父页面

如上继续遍历

问题

按照如上逻辑,在执行到遍历步骤的时候,在第二次时报错了。

第一种报错:

org.openqa.selenium.StaleElementReferenceException: stale element

reference: element is not attached to the page document

我的代码:

// 获取查询按钮

WebElement queryBtn = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/form/div[3]/div[13]/button[1]"));

// jse.executeScript("arguments[0].scrollIntoView()", queryBtn);

scrollToElementAndClick(queryBtn);

Thread.sleep(500); // 等待加载

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

int pageIndex = Integer.parseInt(driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[3]")).getText());

int pageSize = Integer.parseInt(driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[2]")).getText());

// Actions actions = new Actions(driver);

while (pageIndex <= pageSize) {

pageIndex++;

WebElement tbody = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));

List links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));

for (WebElement link : links) {

WebDriver window;

System.out.println("-------------- voucherNo: "+ link.getText());

scrollToElementAndClick(link);

// jse.executeScript("arguments[0].scrollIntoView()", link);

// Thread.sleep(1000);

// actions.moveToElement(link).click().perform();

currentWindow = driver.getWindowHandle();

//get all windows

Set handles = driver.getWindowHandles();

for (String s : handles) {

//current page is don't close

if (s.equals(currentWindow) || s.equals(parentWindow))

continue;

else {

window = driver.switchTo().window(s);

window.manage().window().maximize();

window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

//get all tables

String pageSource = window.getPageSource();

String jsonArray = parseDTO(pageSource);

System.out.println(jsonArray);

//close the table window

window.close();

}

//swich to current window

driver.switchTo().window(currentWindow);

}

}

// click next page

if (pageIndex <= pageSize) {

WebElement nextPage = driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));

scrollToElementAndClick(nextPage);

//set next page to current page

driver = driver.switchTo().window(driver.getWindowHandle());

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

}

}

我在stackoverflow上面查到过类似问题,也去官网上面看到了对应报错的解释:原因应该是我在跳转到子页面的时候,父页面进行的刷新,虽然在ui上面还能到那些链接,但是集合里面的链接是原先定义的,和遍历一次之后回来的父页面对应不上了。(我是这么理解的,如果我理解错了,请大神指出)。

然后我就按照官方的建议,每次页面去页面上拿链接而不是从原先定义的链接集合中拿。

先说明:每个链接的xpath都是有规律的,如:

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[1]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[2]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[3]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a

这是我第二次的代码:

while (pageIndex <= pageSize) {

pageIndex++;

WebElement tbody = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));

List links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));

int size = links.size();

for (int i = 1; i <= size; i++) {

String href = String.format("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a", i);

WebElement link = driver.findElement(By.xpath(href));

WebDriver window;

System.out.println("-------------- voucherNo: "+ link.getText());

scrollToElementAndClick(link);

currentWindow = driver.getWindowHandle();

//get all windows

Set handles = driver.getWindowHandles();

for (String s : handles) {

//current page is don't close

if (s.equals(currentWindow) || s.equals(parentWindow))

continue;

else {

window = driver.switchTo().window(s);

window.manage().window().maximize();

window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

//get all tables

String pageSource = window.getPageSource();

String jsonArray = parseDTO(pageSource);

System.out.println(jsonArray);

//close the table window

window.close();

}

//swich to current window

driver.switchTo().window(currentWindow);

}

}

// click next page

if (pageIndex <= pageSize) {

WebElement nextPage = driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));

scrollToElementAndClick(nextPage);

//set next page to current page

driver = driver.switchTo().window(driver.getWindowHandle());

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

}

}

这次报了第二种错误:

Caused by: org.openqa.selenium.NoSuchElementException: {"errorMessage":"Unable to find element with xpath

Emm...试了很多种办法都没有用,希望有大神能救救我

万分感谢!!!

webdriver 爬虫 java_java爬虫通过selenium+WebDriver遍历页面链接报错相关推荐

  1. webdriver 等待页面加载完成_Python爬虫,登陆神器Selenium等待(waits)页面加载的三种方法...

    网页常常会因为网络原因,程序问题等等导致打开网页慢,一直在那里打圈圈. 出现这种情况时网页里的很多元素就没有加载完成,如果你刚好要定位的元素没有加载完,这时定位的话程序就会抛出异常. 所以程序里要加入 ...

  2. Python爬虫攻略(2)Selenium+多线程爬取链家网二手房信息

    申明:本文对爬取的数据仅做学习使用,请勿使用爬取的数据做任何商业活动,侵删 前戏 安装Selenium: pip install selenium 如果下载速度较慢, 推荐使用国内源: pip ins ...

  3. 今日头条 爬虫 java_Java爬虫实践:Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...

    0x0 背景 最近学习爬虫,分析了几种主流的爬虫框架,决定使用最原始的两大框架进行练手: Jsoup&HttpUnit 其中jsoup可以获取静态页面,并解析页面标签,最主要的是,可以采用类似 ...

  4. 【自动化测试爬虫系列】Selenium Webdriver 介绍

    一. Selenium Webdriver技术介绍 1. 简介 selenium Webdriver是一套针对不同浏览器而开发的web应用自动化测试代码库.使用这套库可以进行页面的交互操作,并且可以重 ...

  5. 2.爬虫之xpath选择器selenium模块

    1. xpath选择器 1.1 xpath介绍 xpath: 是一门在xml/html文档中查找信息的语句. 安装: pip install lxml 导入: from lxml import etr ...

  6. python 模拟浏览器selenium_python爬虫10:使用selenium模拟浏览器登录账号

    需求背景: 很多网页通过复杂的JS函数组合,来实现对信息的加密.异步信息处理等,导致很难分析出网页接口. 那么最快速度的实现爬虫功能,是模拟浏览器的行为,加载运行JS,才能破解页面. 模拟浏览器行为, ...

  7. Python+selenium WebDriver API

    目录 2.1 操作元素基本方法 2.2 常用8种元素定位(Firebug和firepath) 2.3 xpath定位 2.4 CSS定位 2.5 SeleniumBuilder辅助定位元素 2.6 操 ...

  8. Python爬虫(10)selenium爬虫后数据,存入csv、txt并将存入数据并对数据进行查询

    之前的文章有关于更多操作方式详细解答,本篇基于前面的知识点进行操作,如果不了解可以先看之前的文章 Python爬虫(1)一次性搞定Selenium(新版)8种find_element元素定位方式 Py ...

  9. Python爬虫(9)selenium爬虫后数据,存入mongodb实现增删改查

    之前的文章有关于更多操作方式详细解答,本篇基于前面的知识点进行操作,如果不了解可以先看之前的文章 Python爬虫(1)一次性搞定Selenium(新版)8种find_element元素定位方式 Py ...

最新文章

  1. Homestead 无法挂载共享目录解决方案
  2. 家庭扫地机器人竞争升级 带手臂提供移动服务或是未来方向
  3. ue编辑器拖拽上传图片_Typora + PicGo打造超好用的Markdown编辑器
  4. 【渝粤教育】国家开放大学2018年春季 0675-21T中级财务会计(2) 参考试题
  5. 设计模式——Template Method模板方法
  6. 九宫格锁屏和设置密码(九点密码盘)
  7. CSF2020大作业
  8. css黄金色渐变值,ps金色(ps金色渐变数值)
  9. 叮,你有一份光线追踪技术合集待查收 | IMG2020
  10. HDU 5835 Danganronpa
  11. 翻译程序和解释程序的区别
  12. 淘宝运营的逻辑与本质是什么?
  13. 使用 RTSCapture 类可以防止帧处理速度小于接收速度而导致花屏或者断流(崩溃)opencv-python RTSP
  14. JS字符串过滤数字_过滤大写数字
  15. yarn 报错 文件名、目录名或卷标语法不正确
  16. Java位运算,常见的位运算
  17. 初级会计实务--第五章第一节、收入
  18. 常见咳嗽种类、治疗方法和忌食大全
  19. 最小二乘法与最小一乘法
  20. DVWA 之文件上传漏洞

热门文章

  1. centos7部署nodejs新版
  2. C# 列出进程以及详细信息
  3. 关于操作系统的学习总结
  4. java maximumpoolsize,如果maximumPoolSize小于corePoolSize怎么办? Java 6中可能存在的错误?...
  5. 计算机基础知识总结论文,大学计算机基础总结论文
  6. ltp makefile 解析
  7. PHP base64数据与图片的互相转换
  8. 【LintCode题集】Q6、Q64
  9. 关于Java Collections的几个常见问题
  10. sqlserver查看被锁表、解锁