1.下载地址:http://phantomjs.org/download.html

2.java代码

public     void   getHtml(String url)
{HTML="";String jsPath = "C:\\phantomjs\\examples\\myjs.js";String exePath = "C:\\phantomjs\\bin\\phantomjs.exe";System.out.println(jsPath);System.out.println(exePath);Runtime rt = Runtime.getRuntime();Process p;try {p = rt.exec(exePath + " " + jsPath + " " + url);InputStream is = p.getInputStream();BufferedReader br = new BufferedReader(new InputStreamReader(is));StringBuffer sbf = new StringBuffer();String tmp = "";while ((tmp = br.readLine()) != null){sbf.append(tmp);}HTML=sbf.toString();is.close();br.close();sbf=null;is=null;br=null;} catch (IOException e) {e.printStackTrace();}}

 3.js

var page = require('webpage').create(),system = require('system'),t, address;page.settings.loadImages = false;  //为了提升加载速度,不加载图片
page.settings.resourceTimeout = 10000;//超过10秒放弃加载
//此处是用来设置截图的参数。不截图没啥用
page.viewportSize = {width: 1280,height: 800
};
block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告
page.onResourceRequested = function(requestData, request){for(url in block_urls) {if(requestData.url.indexOf(block_urls[url]) !== -1) {request.abort();return;}}
}address = system.args[1];
page.open(address, function(status) {if (status !== 'success') {console.log('FAIL to load the address');} else {console.log(page.content);setTimeout(function(){ phantom.exit(); }, 6000);}phantom.exit();
});

 

转载于:https://www.cnblogs.com/xiaoliao/p/10075714.html

java+phantomjs实现动态网页抓取相关推荐

  1. java phantomjs_java+phantomjs实现动态网页抓取

    1.下载地址:http://phantomjs.org/download.html 2.java代码 public void getHtml(String url) { HTML="&quo ...

  2. python 爬虫动态网页的区别_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取...

    区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

  3. python动态页面元素爬取_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过浏览器审查元素解析真实网页地址...

    由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...

  4. Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过浏览器审查元素解析真实网页地址...

    由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...

  5. python初学者爬虫教程(二)动态网页抓取

    python爬虫教程(二)动态网页抓取 解析真实地址抓取 通过selenium 模拟浏览器抓取 selenium 安装与测试 selenium爬取一条评论 selenium获取文章的所有评论 sele ...

  6. python网络爬虫学习笔记(6)动态网页抓取(一)知识

    文章目录 网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...

  7. [Python爬虫] 5-爬虫进阶(多线程爬虫/动态网页抓取/图形验证码识别)

    # I.多线程爬虫 # 1)概念:多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率 # 线程:火车的车厢,进程:火车头 # # 2)threading模块:专门提供用来做多线程编程的 ...

  8. Python爬虫之动态网页抓取(万科更新时间)

    一.前言 爬取的页面分为静态页面和动态页面,静态的页面爬取很常见,就如豆瓣top250的爬取,展示的内容都在HTML源代码中.而动态页面,很多内容不会出现在HTML源代码中,例如使用JavaScrip ...

  9. python网络爬虫学习笔记(7)动态网页抓取(二)实践

    文章目录 1 资料 2 笔记 2-1 准备 2-1-1. 网址 2-2-2 文本位置 2-2 代码 2-2-1 原型 2-2-2 ver0.1 1 资料 <Python网络爬虫从入门到实践> ...

  10. python网络爬虫从入门到实践(第2版)_带你读《Python网络爬虫从入门到实践(第2版)》之三:静态网页抓取-阿里云开发者社区...

    第3章 静态网页抓取 在网站设计中,纯粹HTML格式的网页通常被称为静态网页,早期的网站一般都是由静态网页制作的.在网络爬虫中,静态网页的数据比较容易获取,因为所有数据都呈现在网页的 HTML代码中. ...

最新文章

  1. 北京亦庄盘古T3+机房简介
  2. 用投资的观点学习编程
  3. 在 CentOS 7.0 上源码安装 Xen 4.5
  4. linux安装自带mysql吗_Linux安装mysql8
  5. 微信小程序自动检测更新新版本
  6. 14.PHP核心技术与最佳实践 --- PHP 编码规范
  7. 新版谷歌开启flash的方法
  8. 程序员如何写简历之简介篇(一)
  9. 电源的输出纹波噪声究竟该取多少才合适?
  10. 淘宝旺旺号转userid 或 uid 接口与方法
  11. 大乐透号码随机生成与排序
  12. 微信开发笔记——微信网页登录授权,获取用户信息
  13. 开始学ASP.NET了~·~得发奋啊……
  14. UE4 蓝图常用节点汇总及意译(一)
  15. 关于AD之PCB各层的简单说明
  16. 我的世界Java版怎么做tnt,我的世界全自动刷TNT机教程
  17. shell命令执行完的退出状态详解+if语句的定义方法
  18. gdb使用watch命令设置数据断点
  19. OpenStack Victoria搭建(一)简介
  20. 常识——windows的tensorflow安装gpu版本,cuda算力只有3.0也可以

热门文章

  1. 整装待发 QTA UI自动化测试框架迎来大更新
  2. poj3557 Map Generator
  3. flutter实战1:完成一个有侧边栏的主界面
  4. Nginx 静态页面POST 请求提示405 Not Allowed
  5. [MySQL][Spider][VP]Spider-3.1 VP-1.0 发布
  6. 性能测试中的jvm监控
  7. Yii2.0 PHP框架-姜海强-专题视频课程
  8. Web移动端常见问题-摘抄
  9. Lucene全文检索(一)
  10. iOS9 开发新特性 Spotlight使用