HtmlUnit爬取页面列表链接

场景：爬虫网页列表上的链接，用于再次爬虫，主要功能是列表翻页功能。

代码参考：

package com;import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.DomElement;
import com.gargoylesoftware.htmlunit.html.DomNodeList;
import com.gargoylesoftware.htmlunit.html.HtmlDivision;
import com.gargoylesoftware.htmlunit.html.HtmlElement;
import com.gargoylesoftware.htmlunit.html.HtmlPage;public class BlogAutoClick {public static void main(String[] args){String sUrl="IP";//网址  //webclient设置  final  WebClient webClient = new WebClient(BrowserVersion.CHROME); //创建一个webclient    webClient.getOptions().setJavaScriptEnabled(true); // 启动JS            webClient.getOptions().setUseInsecureSSL(true);//忽略ssl认证              webClient.getOptions().setCssEnabled(false);//禁用Css，可避免自动二次请求CSS进行渲染              webClient.getOptions().setThrowExceptionOnScriptError(false);//运行错误时，不抛出异常     webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);  webClient.setAjaxController(new NicelyResynchronizingAjaxController());// 设置Ajax异步        //登录  int i_clickCount=0;try {  HtmlPage page = (HtmlPage) webClient.getPage(sUrl);  webClient.waitForBackgroundJavaScript(10000);//等待1秒 boolean flag=true;while(flag){//本页链接点击HtmlDivision articlediv=(HtmlDivision)page.getElementById("article_list");   DomNodeList<HtmlElement> articleas=articlediv.getElementsByTagName("a"); for(HtmlElement a:articleas){HtmlPage llpage=(HtmlPage)a.click();DomNodeList<DomElement> h1name= llpage.getElementsByTagName("h1");String strname=h1name.get(0).asText();            i_clickCount++;System.out.print("article:"+strname+"is auto clicked at times:"+i_clickCount);}//翻页HtmlDivision pagediv=(HtmlDivision)page.getElementById("papelist");DomNodeList<HtmlElement> pageas=pagediv.getElementsByTagName("a");boolean nextpage=false;for(HtmlElement a:pageas){if (a.asText().equals("下一页")) {page=(HtmlPage)a.click();webClient.waitForBackgroundJavaScript(10000);//等待1秒 nextpage=true;//下一页存在break;}}if(nextpage==false) flag=false;//没有下一页了，退出循环}}catch (Exception e) {  // TODO Auto-generated catch block  e.printStackTrace();  } }
}

HtmlUnit爬取页面列表链接相关推荐

Scrapy翻页爬取示例——列表页、详情页
Scrapy翻页爬取示例--列表页.详情页引言: 本人最近在帮助同事们爬取一批英-泰双语数据,顺带复习了一下scrapy爬虫相关的知识.下面以简单的小项目为例,一起来开始吧! 示例一:爬取列表页本 ...
项目三：爬取视频磁力链接
项目三:爬取视频磁力链接标签(空格分隔): 爬虫 BeautifulSoup -具体技术实现原理类似项目二 1. 项目任务分析类似上一个小项目中爬取图片的技术原理,本次小项目尝试对相同网站上的可供 ...
Python简单爬取电影磁力链接
Python简单爬取电影磁力链接网页的链接:http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html 打开你想要的电影:http://www.ygdy8. ...
使用python爬取页面的图片，4k壁纸，动态爬取+selenium
文章目录代码实现在不同文件夹下在同一文件夹下使用python指令批量修改文件名使用循环下载滑动屏动态下载来源博客:[Harryの心阁] 代码实现可以修改n的值调整页码,实现多页面爬取, ...
python生成QQ机器人爬取百度文库链接推送好友并生成词云
QQ机器人爬取百度文库链接推送好友并生成词云一.环境准备二.实现QQ机器人 1.QQ机器人介绍 2.安装方法 3.实现自己的QQ机器人三.百度文库内容链接爬取推送好友代码实现: 思路分析 1. ...
Scrapy框架的学习(2.scrapy入门，简单爬取页面，并使用管道(pipelines)保存数据)
上个博客写了: Scrapy的概念以及Scrapy的详细工作流程 https://blog.csdn.net/wei18791957243/article/details/86154068 1.sc ...
python实战-HTML形式爬虫-批量爬取电影下载链接
文章目录一.前言二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断三.具体代码的实现四.总结一.前言喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...
爬虫小案例之爬取京东商品链接
观察URL翻页的变化爬取页面URL如下 base_url='https://search.jd.com/Search?keyword='+keyword for x in range(1,n ...
Python post请求模拟登录淘宝并爬取商品列表！
一.前言大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录.一共是三篇博客,记录了我爬取淘宝网的经历.期间也有朋友向我 ...

HtmlUnit爬取页面列表链接

HtmlUnit爬取页面列表链接相关推荐

最新文章

热门文章