phantomjs 抓取html,phantomjs抓取完整网页
phantomjs:我的理解就是它是一个无显示的浏览器,也就是说除了不能显示页面内容以外,浏览器能干的活儿它基本上都能干。so,最近由于实验需要,要从某电商爬一点图片,但是它又是AJAX生成的,单纯的爬取HTML的方法是行不通的,o(╯□╰)o,于是在经过一些求助后,;了解到了PHANTOMJS,鉴于网上没找到太多实例,只好自己总结下以备不时之需。另外直接查看官网上的说明文档会有很大收获滴~顺便锻炼下自己英文嘛o(╯□╰)o。下面举个栗子来具体实现:
把phantom下载解压到D盘,在目录下有phantomjs.exe文件(win7) 通过js文件可以调用这个WebKit来达到需要的目的:比方说生成网页快照之类吧。我要做的是爬AJAX页面上的图片。先看js文件:命名为s.js
派生到我的代码片
system = require('system') //传递一些需要的参数给js文件
address = system.args[1];//获得命令行第二个参数 ,也就是指定要加载的页面地址,接下来会用到
var page = require('webpage').create();
var url = address;
page.open(url, function (status) {
if (status !== 'success') {
console.log('Unable to post!');
} else {
var encodings = ["euc-jp", "sjis", "utf8", "System"];//这一步是用来测试输出的编码格式,选择合适的编码格式很重要,不然你抓取下来的页面会乱码o(╯□╰)o,给出的几个编码格式是官网上的例子,根据具体需要自己去调整。
for (var i = 3; i < encodings.length; i++) {//我这里只要一种编码就OK啦
phantom.outputEncoding = encodings[i];
console.log(phantom.outputEncoding+page.content);//最后返回webkit加载之后的页面内容
}
}
phantom.exit();
});
接下来就是java类的编写:
派生到我的代码片
package com.mvc.rest;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
public class GetAjaxHtml {
public static String getAjaxContent(String url) throws Exception {
Runtime rt = Runtime.getRuntime();
Process p = rt.exec("D:/tools/phantomjs/phantomjs.exe D:/tools/phantomjs/examples/s.js " + url);
InputStream is = p.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is));
StringBuffer sbf = new StringBuffer();
String tmp = "";
while((tmp=br.readLine())!=null) {
sbf.append(tmp + "\n");
}
return sbf.toString();
}
public static void main(String[] args) throws Exception {
long start = System.currentTimeMillis();
String result = getAjaxContent("http://114.111.162.220:8093/404Web/");
System.out.println(result);
long end = System.currentTimeMillis();
System.out.println("===============耗时:" + (end - start) + "===============");
}
}
到这里,就得到了所需要的AJAX完整页面的代码字符串了,接下来就可以do whatever you want啦
phantomjs 抓取html,phantomjs抓取完整网页相关推荐
- 数据从业者必读:抓取了一千亿个网页后我才明白,爬虫一点都不简单
编者按:互联网上有浩瀚的数据资源,要想抓取这些数据就离不开爬虫.鉴于网上免费开源的爬虫框架多如牛毛,很多人认为爬虫定是非常简单的事情.但是如果你要定期上规模地准确抓取各种大型网站的数据却是一项艰巨的挑 ...
- 【linux测试必背| tcpdump】命令行抓包神器 | tcpdump抓取post请求并显示详细参数
命令行抓包神器 | tcpdump抓取post请求并显示详细参数 知识背景(diu ren 经历) 1. tcpdump抓包工具捕捉tcp请求 三次握手和四次挥手 适用场景: 命令格式: 2. tcp ...
- 20個網頁抓取工具快速抓取網站
網絡爬行(也稱為網絡抓取,屏幕抓取)已廣泛應用於當今的許多領域. 在網絡爬蟲工具進入公眾之前,對於沒有編程技能的普通人來說,這是一個神奇的詞. 它的高門檻阻礙了大數據門外的人們. 網絡抓取工具是自動爬 ...
- Omnipeek空口抓包(4):抓取路由器下的无线网络包
文字目录 抓包流程概述 设置抓包配置选项 设置信道 设置无线数据包加密信息 设置MAC地址过滤器 抓取联网过程 抓包流程概述 使用Omnipeek软件分析网络数据包的流程大概可以分为以下几个步骤: 扫 ...
- php 爬取新闻,scrapy抓取学院新闻报告
接到上方任务安排,需要使用scrapy来抓取学院的新闻报告.于是乎,新官上任三把火,对刚学会爬数据的我迫不及待的上手起来. 任务 抓取四川大学公共管理学院官网(http://ggglxy.scu.ed ...
- 抓包工具Fiddler抓取手机包和修改接口数据
抓包工具Fiddler抓取手机包和修改接口数据 安装成功界面 点击Tools->Options 弹出该页面 Allow remote-勾选上,意思为允许远程计算机连接,端口随意设置(默认8888 ...
- Wireshark使用(捕获过滤器、显示过滤器、TCP交互抓包示例、抓取本地回环数据包等)
1.捕获过滤器规则 1.1 作用 捕获过滤器在开始捕捉之前设置,用于从源头控制被过滤的包内容,仅符合规则的包会被捕获并记录进捕获日志文件. 1.2 语法规则 字段:[Protocol][Direc ...
- 四、小程序|App抓包(四)-Tcpdump抓取手机数据包分析
小程序|App抓包(四) Tcpdump抓取手机数据包分析 一.环境需求: 1.手机需要root 2.电脑上安装SDK(建议安装android studio)也可单独安装SDk也行 下载地址 : ht ...
- 【java工具类-抓取图片】正则抓取内容里面的j图片,正则,图片替换格式处理图片java处理文章内容里面的图片格式化工具类,能够最大限度的自动是被图片IMG标签和java使用正则抓取图片说明
目录 1.java处理图片格式自动抓取格式案例 java代码运行案例: 自动抓取的结果如下 2.java代码去除HTML的格式进行返回无格式文本代码 可以经过正则过滤掉,里面的HTML格式,删除空格, ...
最新文章
- powerdesigner 同步mysql 报错_PowerDesigner技巧小结
- R如何与Tableau集成分步指南 - 适用于数据科学和商业智能专业人员
- iphone屏蔽系统更新_iPhone手机经常提示更新系统,教你一招关闭方法,学到了
- 【转】使用ant来调用Jmeter,并定制运行时参数
- Mac OS X必备APP推荐之二
- linux镜像文件_深度UI + Ubuntu系统,堪称最强最美Linux发行版!你敢升级吗?
- 使用NVIDIA端到端深度学习平台进行缺陷自动检测
- asp.net5开发中DNX SDK版本的影响
- 侠客行手游java游戏,侠客行-侠客行手游下载 - 超好玩
- Oracle 备份及恢复
- matlab 光线追踪 渲染,光线追踪(Ray tracing)渲染器工作原理
- uipath工具介绍
- vue手动封装分页组件
- 淘宝美工教程:1小时让店铺高大上-优就业-专题视频课程
- 【论文翻译】Recent security challenges in cloud computing 近代云计算面临的安全挑战
- 大数据系列5:地理信息系统PostGis
- 2021年茶艺师(中级)最新解析及茶艺师(中级)考试总结
- 网吧接入的新趋势(转)
- 被假阀门坑过吗?如何辨别翻新阀门?
- 用计算机玩穿越火线,为什么每次玩穿越火线电脑就特别卡?
热门文章
- 年仅38岁!中科院博导不幸去世,饶毅发文悼念:他曾是我的学生
- 为了孩子学英语,花几天时间写了个语法练习小程序
- Oracle Spacial(空间数据库)空间聚集函数
- FFmpeg filter过滤器使用详解
- 小型板栗自动去皮(壳)机机械设计
- 11基于主从博弈理论的共享储能与综合能源微网优化运行研究(MATLAB程序)
- 伯克利酒店水门 (The Berkeley Hotel Pratunam)泰国曼谷好酒店
- html控制窗口,控制web窗体
- python万年历实现代码_python万年历实现代码 含运行结果
- 分享1个月速成软件设计师资格证的经验(●----●)