用eclipice抓取JS代码
public class TestData { /*** * 抓取数据的代码 */ public static void main(String[] args) { try { // 1.创建html解析器 Parser p = new Parser(); // 2.设置需要解析的html URL路径 p.setURL("http://zhushou.360.cn/list/index/cid/1?page=1"); // 3.只获得li节点 // 3.1.创建一个li节点的过滤器 HasAttributeFilter haf = new HasAttributeFilter("id", "iconList"); HasParentFilter hpf = new HasParentFilter(haf); AndFilter af = new AndFilter(hpf, new TagNameFilter("li")); // 3.2.通过li过滤器获得所有li节点 NodeList nodeList = p.parse(af); StringBuffer sb = new StringBuffer(); sb.append("@["); for (int i = 0; i < nodeList.size(); i++) { // 4.1.获得了对应li节点 TagNode liNode = (TagNode) nodeList.elementAt(i); // 4.2.获得li里面的图片(img节点) NodeList liChildren = liNode.getChildren(); TagNode imgNode = (TagNode) liChildren.elementAt(0).getChildren().elementAt(0); String url = imgNode.getAttribute("_src"); // 4.3.获得软件名称 TextNode nameNode = (TextNode) liChildren.elementAt(1).getChildren().elementAt(0).getChildren().elementAt(0); String name = nameNode.getText(); // 4.4.获得软件的下载量 TextNode downloadNode = (TextNode) liChildren.elementAt(2).getChildren().elementAt(0); String download = downloadNode.getText(); if (i != 0) { sb.append(" , "); } sb.append("@{"); sb.append("@\"icon\" : @\"" + url + "\","); sb.append("@\"name\" : @\"" + name + "\","); sb.append("@\"download\" : @\"" + download + "\""); sb.append("}"); } sb.append("]"); System.out.println(sb); /* @[ @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" }, @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" }, @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" } ]*/ } catch (Exception e) { e.printStackTrace(); } } }
转载于:https://www.cnblogs.com/changxs/p/3484925.html
用eclipice抓取JS代码相关推荐
- js和css被屏蔽了,是否屏蔽蜘蛛抓取JS和CSS文件
做网站的人都知道,在查看日志的时候,会发现JS.CSS文件被蜘蛛抓取的频率特别高,于是有人便考虑在robots.txt屏蔽蜘蛛抓取js和css文件,节省蜘蛛时间给其他页面.是否屏蔽蜘蛛抓取JS和CSS ...
- 抓取百度页面html,百度会抓取页面代码中的注释内容吗
百度会抓取页面代码中的注释内容吗 内容导读:百度会抓取页面代码中的注释内容吗?答案是百度会抓取,但是在提取正文的时候会直接忽略掉,也就是说页面代码的注释内容不会影响到页面质量,所以大家尽管放心. 问题 ...
- 网页java代码_java抓取网页代码
导读热词 代码以下 import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLCo ...
- java使用htmlunit工具抓取js中加载的数据
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容.项目可以模拟浏览器运行,被誉为java浏览器的开源实现.这个没有界面的浏览器,运行速度 ...
- 防止抓取html代码,网页中用html代码注释的内容会被抓取吗
很多站长都知道网页代码里面有注释代码这么个东西,其形式是 ,在HTML里面注释的内容出现在网页源代码,而用户浏览网页的过程中是看不到的.因为注释内容在源代码展现又不会影响页面内容,所以很多人觉得蜘蛛会 ...
- js动态渲染html页面,利用Scrapy-Splash抓取JS动态渲染的网页数据
随着越来越多的网站开始用JS在客户端浏览器动态渲染网站,导致很多我们需要的数据并不能由原始的html中获取,再加上Scrapy本身并不提供JS渲染解析的功能,通常对这类网站数据的爬取我们一般采用两种方 ...
- Python爬虫用Selenium抓取js生成的文件(一)
简介 任务简述 实现过程 简介 我最近在看关于计算机的一些书籍,发现了这个电子书清单:计算机开放电子书汇总, 和大家分享一下. 我在下载其中的书籍时被导向了这个很好的计算机电子书网站KanCloud看 ...
- htmlunit抓取js执行后的网页源码
上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了.. 运行了几次 发现使用URLConnection 得到的网页源码和浏览器直接查看的不同. URLC ...
- 抓取js动态生成的数据分析案例
需求: 爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/data018d244441062d8916dd472a4c6a0a0b.htm ...
最新文章
- 使用工具知乎点赞工具
- 开发路上踩过的坑要一个个填起来————持续更新······(7月30日)
- 浅谈Java锁,与JUC的常用类,集合安全类,常用辅助类,读写锁,阻塞队列,线程池,ForkJoin,volatile,单例模式不安全,CAS,各种锁
- HDU 2047 阿牛的EOF牛肉串
- 怎么样做好日志类的报警监控
- [蓝桥杯2018决赛]迷宫与陷阱
- java线程池并发_Java并发教程–线程池
- 重命名 docker 容器名
- etcd部署简单说明
- 神经网络的输出层有哪些_深度学习的数学-神经网络、输入层、隐藏层、输出层...
- Tiktok引流到独立站?
- 免费的3D GIS 软件,特点与应用领域介绍
- Visual Basic6.0下载及安装
- TextInput组件练习 - QQLogin界面
- OGRE实现纸娃娃系统
- 用java读excel时,碰到常规类型但全是数字或小数的,往往会自动加上.0或者自动读成科学计数法的解决办法
- word2010去掉回车符
- 如何显示在网页中显示阿拉伯语言
- 一些简单好玩的Python编程游戏
- vue垂死挣扎--遇到的问题
热门文章
- c语言银行家算法模拟程序,C语言实现 操作系统 银行家算法
- 【Flink】Flink classloader.check-leaked-classloader
- 【Elasticsearch】Limit of total fields [1000] in index [xxxxxx_index] has been exceeded
- 60-150-040-使用-Sink-Flink自定义UpsertStreamTableSink
- 【flink】95-260-045-源码-检查点-CheckPoint
- 【Mac】setremotelogin: Turning Remote Login on or off requires Full Disk Access privileges.
- hive报错:Call from hostname/127.0.1.1 to localhost:9000 failed on connection exception.主节点9000端口拒绝访问.
- org.neo4j.kernel.StoreLockException: Store and its lock file has been locked by another process
- Android的手势识别
- index mysql_mysql 原理~ index的详解