java+phantomjs实现动态网页抓取

1.下载地址:http://phantomjs.org/download.html

2.java代码

public     void   getHtml(String url)
{HTML="";String jsPath = "C:\\phantomjs\\examples\\myjs.js";String exePath = "C:\\phantomjs\\bin\\phantomjs.exe";System.out.println(jsPath);System.out.println(exePath);Runtime rt = Runtime.getRuntime();Process p;try {p = rt.exec(exePath + " " + jsPath + " " + url);InputStream is = p.getInputStream();BufferedReader br = new BufferedReader(new InputStreamReader(is));StringBuffer sbf = new StringBuffer();String tmp = "";while ((tmp = br.readLine()) != null){sbf.append(tmp);}HTML=sbf.toString();is.close();br.close();sbf=null;is=null;br=null;} catch (IOException e) {e.printStackTrace();}}

　3.js

var page = require('webpage').create(),system = require('system'),t, address;page.settings.loadImages = false;  //为了提升加载速度，不加载图片
page.settings.resourceTimeout = 10000;//超过10秒放弃加载
//此处是用来设置截图的参数。不截图没啥用
page.viewportSize = {width: 1280,height: 800
};
block_urls = ['baidu.com'];//为了提升速度，屏蔽一些需要时间长的。比如百度广告
page.onResourceRequested = function(requestData, request){for(url in block_urls) {if(requestData.url.indexOf(block_urls[url]) !== -1) {request.abort();return;}}
}address = system.args[1];
page.open(address, function(status) {if (status !== 'success') {console.log('FAIL to load the address');} else {console.log(page.content);setTimeout(function(){ phantom.exit(); }, 6000);}phantom.exit();
});

转载于:https://www.cnblogs.com/xiaoliao/p/10075714.html

java+phantomjs实现动态网页抓取相关推荐

java phantomjs_java+phantomjs实现动态网页抓取
1.下载地址:http://phantomjs.org/download.html 2.java代码 public void getHtml(String url) { HTML="&quo ...
python 爬虫动态网页的区别_Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取...
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
python动态页面元素爬取_Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过浏览器审查元素解析真实网页地址...
由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过浏览器审查元素解析真实网页地址...
由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...
python初学者爬虫教程（二）动态网页抓取
python爬虫教程(二)动态网页抓取解析真实地址抓取通过selenium 模拟浏览器抓取 selenium 安装与测试 selenium爬取一条评论 selenium获取文章的所有评论 sele ...
python网络爬虫学习笔记（6）动态网页抓取（一）知识
文章目录网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...
[Python爬虫] 5-爬虫进阶(多线程爬虫/动态网页抓取/图形验证码识别)
# I.多线程爬虫 # 1)概念:多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率 # 线程:火车的车厢,进程:火车头 # # 2)threading模块:专门提供用来做多线程编程的 ...
Python爬虫之动态网页抓取（万科更新时间）
一.前言爬取的页面分为静态页面和动态页面,静态的页面爬取很常见,就如豆瓣top250的爬取,展示的内容都在HTML源代码中.而动态页面,很多内容不会出现在HTML源代码中,例如使用JavaScrip ...
python网络爬虫学习笔记（7）动态网页抓取（二）实践
文章目录 1 资料 2 笔记 2-1 准备 2-1-1. 网址 2-2-2 文本位置 2-2 代码 2-2-1 原型 2-2-2 ver0.1 1 资料 <Python网络爬虫从入门到实践> ...
python网络爬虫从入门到实践(第2版)_带你读《Python网络爬虫从入门到实践（第2版）》之三：静态网页抓取-阿里云开发者社区...
第3章静态网页抓取在网站设计中,纯粹HTML格式的网页通常被称为静态网页,早期的网站一般都是由静态网页制作的.在网络爬虫中,静态网页的数据比较容易获取,因为所有数据都呈现在网页的 HTML代码中. ...

java+phantomjs实现动态网页抓取

java+phantomjs实现动态网页抓取相关推荐

最新文章

热门文章