用eclipice抓取JS代码

public class TestData { /*** * 抓取数据的代码 */ public static void main(String[] args) { try { // 1.创建html解析器 Parser p = new Parser(); // 2.设置需要解析的html URL路径 p.setURL("http://zhushou.360.cn/list/index/cid/1?page=1"); // 3.只获得li节点 // 3.1.创建一个li节点的过滤器 HasAttributeFilter haf = new HasAttributeFilter("id", "iconList"); HasParentFilter hpf = new HasParentFilter(haf); AndFilter af = new AndFilter(hpf, new TagNameFilter("li")); // 3.2.通过li过滤器获得所有li节点 NodeList nodeList = p.parse(af); StringBuffer sb = new StringBuffer(); sb.append("@["); for (int i = 0; i < nodeList.size(); i++) { // 4.1.获得了对应li节点 TagNode liNode = (TagNode) nodeList.elementAt(i); // 4.2.获得li里面的图片（img节点） NodeList liChildren = liNode.getChildren(); TagNode imgNode = (TagNode) liChildren.elementAt(0).getChildren().elementAt(0); String url = imgNode.getAttribute("_src"); // 4.3.获得软件名称 TextNode nameNode = (TextNode) liChildren.elementAt(1).getChildren().elementAt(0).getChildren().elementAt(0); String name = nameNode.getText(); // 4.4.获得软件的下载量 TextNode downloadNode = (TextNode) liChildren.elementAt(2).getChildren().elementAt(0); String download = downloadNode.getText(); if (i != 0) { sb.append(" , "); } sb.append("@{"); sb.append("@\"icon\" : @\"" + url + "\","); sb.append("@\"name\" : @\"" + name + "\","); sb.append("@\"download\" : @\"" + download + "\""); sb.append("}"); } sb.append("]"); System.out.println(sb); /* @[ @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" }, @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" }, @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" } ]*/ } catch (Exception e) { e.printStackTrace(); } } }

转载于:https://www.cnblogs.com/changxs/p/3484925.html

用eclipice抓取JS代码相关推荐

js和css被屏蔽了,是否屏蔽蜘蛛抓取JS和CSS文件
做网站的人都知道,在查看日志的时候,会发现JS.CSS文件被蜘蛛抓取的频率特别高,于是有人便考虑在robots.txt屏蔽蜘蛛抓取js和css文件,节省蜘蛛时间给其他页面.是否屏蔽蜘蛛抓取JS和CSS ...
抓取百度页面html,百度会抓取页面代码中的注释内容吗
百度会抓取页面代码中的注释内容吗内容导读:百度会抓取页面代码中的注释内容吗?答案是百度会抓取,但是在提取正文的时候会直接忽略掉,也就是说页面代码的注释内容不会影响到页面质量,所以大家尽管放心. 问题 ...
网页java代码_java抓取网页代码
导读热词代码以下 import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLCo ...
java使用htmlunit工具抓取js中加载的数据
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容.项目可以模拟浏览器运行,被誉为java浏览器的开源实现.这个没有界面的浏览器,运行速度 ...
防止抓取html代码,网页中用html代码注释的内容会被抓取吗
很多站长都知道网页代码里面有注释代码这么个东西,其形式是 ,在HTML里面注释的内容出现在网页源代码,而用户浏览网页的过程中是看不到的.因为注释内容在源代码展现又不会影响页面内容,所以很多人觉得蜘蛛会 ...
js动态渲染html页面,利用Scrapy-Splash抓取JS动态渲染的网页数据
随着越来越多的网站开始用JS在客户端浏览器动态渲染网站,导致很多我们需要的数据并不能由原始的html中获取,再加上Scrapy本身并不提供JS渲染解析的功能,通常对这类网站数据的爬取我们一般采用两种方 ...
Python爬虫用Selenium抓取js生成的文件(一)
简介任务简述实现过程简介我最近在看关于计算机的一些书籍,发现了这个电子书清单:计算机开放电子书汇总, 和大家分享一下. 我在下载其中的书籍时被导向了这个很好的计算机电子书网站KanCloud看 ...
htmlunit抓取js执行后的网页源码
上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了.. 运行了几次发现使用URLConnection 得到的网页源码和浏览器直接查看的不同. URLC ...
抓取js动态生成的数据分析案例
需求: 爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/data018d244441062d8916dd472a4c6a0a0b.htm ...

用eclipice抓取JS代码

用eclipice抓取JS代码相关推荐

最新文章

热门文章