public class TestData { /*** * 抓取数据的代码 */ public static void main(String[] args) { try { // 1.创建html解析器 Parser p = new Parser(); // 2.设置需要解析的html URL路径 p.setURL("http://zhushou.360.cn/list/index/cid/1?page=1"); // 3.只获得li节点 // 3.1.创建一个li节点的过滤器 HasAttributeFilter haf = new HasAttributeFilter("id", "iconList"); HasParentFilter hpf = new HasParentFilter(haf); AndFilter af = new AndFilter(hpf, new TagNameFilter("li")); // 3.2.通过li过滤器获得所有li节点 NodeList nodeList = p.parse(af); StringBuffer sb = new StringBuffer(); sb.append("@["); for (int i = 0; i < nodeList.size(); i++) { // 4.1.获得了对应li节点 TagNode liNode = (TagNode) nodeList.elementAt(i); // 4.2.获得li里面的图片(img节点) NodeList liChildren = liNode.getChildren(); TagNode imgNode = (TagNode) liChildren.elementAt(0).getChildren().elementAt(0); String url = imgNode.getAttribute("_src"); // 4.3.获得软件名称 TextNode nameNode = (TextNode) liChildren.elementAt(1).getChildren().elementAt(0).getChildren().elementAt(0); String name = nameNode.getText(); // 4.4.获得软件的下载量 TextNode downloadNode = (TextNode) liChildren.elementAt(2).getChildren().elementAt(0); String download = downloadNode.getText(); if (i != 0) { sb.append(" , "); } sb.append("@{"); sb.append("@\"icon\" : @\"" + url + "\","); sb.append("@\"name\" : @\"" + name + "\","); sb.append("@\"download\" : @\"" + download + "\""); sb.append("}"); } sb.append("]"); System.out.println(sb); /* @[ @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" }, @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" }, @{ @"icon" : @"ggg.png", @"name" : @"360手机卫士", @"download" : @"65666次下载" } ]*/ } catch (Exception e) { e.printStackTrace(); } } }

转载于:https://www.cnblogs.com/changxs/p/3484925.html

用eclipice抓取JS代码相关推荐

  1. js和css被屏蔽了,是否屏蔽蜘蛛抓取JS和CSS文件

    做网站的人都知道,在查看日志的时候,会发现JS.CSS文件被蜘蛛抓取的频率特别高,于是有人便考虑在robots.txt屏蔽蜘蛛抓取js和css文件,节省蜘蛛时间给其他页面.是否屏蔽蜘蛛抓取JS和CSS ...

  2. 抓取百度页面html,百度会抓取页面代码中的注释内容吗

    百度会抓取页面代码中的注释内容吗 内容导读:百度会抓取页面代码中的注释内容吗?答案是百度会抓取,但是在提取正文的时候会直接忽略掉,也就是说页面代码的注释内容不会影响到页面质量,所以大家尽管放心. 问题 ...

  3. 网页java代码_java抓取网页代码

    导读热词 代码以下 import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLCo ...

  4. java使用htmlunit工具抓取js中加载的数据

    htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容.项目可以模拟浏览器运行,被誉为java浏览器的开源实现.这个没有界面的浏览器,运行速度 ...

  5. 防止抓取html代码,网页中用html代码注释的内容会被抓取吗

    很多站长都知道网页代码里面有注释代码这么个东西,其形式是 ,在HTML里面注释的内容出现在网页源代码,而用户浏览网页的过程中是看不到的.因为注释内容在源代码展现又不会影响页面内容,所以很多人觉得蜘蛛会 ...

  6. js动态渲染html页面,利用Scrapy-Splash抓取JS动态渲染的网页数据

    随着越来越多的网站开始用JS在客户端浏览器动态渲染网站,导致很多我们需要的数据并不能由原始的html中获取,再加上Scrapy本身并不提供JS渲染解析的功能,通常对这类网站数据的爬取我们一般采用两种方 ...

  7. Python爬虫用Selenium抓取js生成的文件(一)

    简介 任务简述 实现过程 简介 我最近在看关于计算机的一些书籍,发现了这个电子书清单:计算机开放电子书汇总, 和大家分享一下. 我在下载其中的书籍时被导向了这个很好的计算机电子书网站KanCloud看 ...

  8. htmlunit抓取js执行后的网页源码

    上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了.. 运行了几次 发现使用URLConnection 得到的网页源码和浏览器直接查看的不同. URLC ...

  9. 抓取js动态生成的数据分析案例

    需求: 爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/data018d244441062d8916dd472a4c6a0a0b.htm ...

最新文章

  1. 使用工具知乎点赞工具
  2. 开发路上踩过的坑要一个个填起来————持续更新······(7月30日)
  3. 浅谈Java锁,与JUC的常用类,集合安全类,常用辅助类,读写锁,阻塞队列,线程池,ForkJoin,volatile,单例模式不安全,CAS,各种锁
  4. HDU 2047 阿牛的EOF牛肉串
  5. 怎么样做好日志类的报警监控
  6. [蓝桥杯2018决赛]迷宫与陷阱
  7. java线程池并发_Java并发教程–线程池
  8. 重命名 docker 容器名
  9. etcd部署简单说明
  10. 神经网络的输出层有哪些_深度学习的数学-神经网络、输入层、隐藏层、输出层...
  11. Tiktok引流到独立站?
  12. 免费的3D GIS 软件,特点与应用领域介绍
  13. Visual Basic6.0下载及安装
  14. TextInput组件练习 - QQLogin界面
  15. OGRE实现纸娃娃系统
  16. 用java读excel时,碰到常规类型但全是数字或小数的,往往会自动加上.0或者自动读成科学计数法的解决办法
  17. word2010去掉回车符
  18. 如何显示在网页中显示阿拉伯语言
  19. 一些简单好玩的Python编程游戏
  20. vue垂死挣扎--遇到的问题

热门文章

  1. c语言银行家算法模拟程序,C语言实现 操作系统 银行家算法
  2. 【Flink】Flink classloader.check-leaked-classloader
  3. 【Elasticsearch】Limit of total fields [1000] in index [xxxxxx_index] has been exceeded
  4. 60-150-040-使用-Sink-Flink自定义UpsertStreamTableSink
  5. 【flink】95-260-045-源码-检查点-CheckPoint
  6. 【Mac】setremotelogin: Turning Remote Login on or off requires Full Disk Access privileges.
  7. hive报错:Call from hostname/127.0.1.1 to localhost:9000 failed on connection exception.主节点9000端口拒绝访问.
  8. org.neo4j.kernel.StoreLockException: Store and its lock file has been locked by another process
  9. Android的手势识别
  10. index mysql_mysql 原理~ index的详解