当我们使用浏览器处理网页的时候,有时候是不需要浏览的,例如使用PhantomJS适用于无头浏览器,进行爬取网页数据操作。最近在进行java爬虫学习的小伙伴们有没有想过如何爬取js生成的网络页面吗?别急,本文小编将向大家介绍。

1、PhantomJS的功能

提供一个浏览器环境的命令行接口,除了不能浏览,其他与正常浏览器一样。它的内核是WebKit引擎,不提供图形界面,只能在命令行下使用。

2、PhantomJS用途

适用范围就是无头浏览器的适用范围。通常无头浏览器可以用于页面自动化和网络爬虫等。

页面自动化测试:希望自动的登陆网站并做一些操作然后检查结果是否正常。

网络爬虫:获取页面中使用js来下载和渲染信息,或者是获取链接处使用js来跳转后的真实地址。

3、对于使用PhantomJS编写的parser.js文件调用java爬虫爬取网页数据Runtime rt = Runtime.getRuntime();

Process process = null;

try {

process = rt.exec("C:/phantomjs.exe C:/parser.js " +url);

InputStream in = process.getInputStream();

InputStreamReader reader = new InputStreamReader(in, "UTF-8");

BufferedReader br = new BufferedReader(reader);

StringBuffer sbf = new StringBuffer();

String tmp = "";

while ((tmp = br.readLine()) != null) {

sbf.append(tmp);

}

return sbf.toString();

} catch (IOException e) {

e.printStackTrace();

}

return null;

以上就是对PhantomJS简单介绍,以及使用java爬虫爬取PhantomJS编写的网络页面进行爬虫数据的代码实现,希望能对你有所帮助哦~更多java推荐:java教程。

python java 爬数据_如何用java爬虫爬取网页上的数据相关推荐

  1. stata抓取html,(5)详解 stata 爬虫抓取网页上的数据 part 1

    *案例:抓取 http://www.tjcn.org 中国统计信息网上前50页(每页包含20个市的数据)的1000个地区的GDP数据.使用stata版本为 stata13,与12版本和14版本都不兼容 ...

  2. cookie追加数据_集算器 SPL 抓取网页数据

    [摘要] 集算器 SPL 支持抓取网页数据,根据抓取定义规则,可将网页数据下载到在本地进行统计分析.具体定义规则要求.使用详细情况,请前往乾学院:集算器 SPL 抓取网页数据! 网站上的数据源是我们进 ...

  3. c语言编程网页数据提取,怎么用c语言抓取网页中的数据

    当前位置:我的异常网» C语言 » 怎么用c语言抓取网页中的数据 怎么用c语言抓取网页中的数据 www.myexceptions.net  网友分享于:2013-07-17  浏览:390次 如何用c ...

  4. java html提取_如何用JAVA从HTML源代码中提取有用的文本信息?

    如将连接中的流读取出来方法:/** * 将网页上的数据流转成字符串 * * @param url * @return * @throws IOError */ public String getSou ...

  5. java 判断手机号_如何用java判断手机号运营商?

    如何用java实现判断手机号的运营商?因为每个号段都是工信部规定划分给指定运营商的,所以我们可以通过手机号码的号段来判断. 现在手机号的号段那么多,要怎样方便的的判断呢?于是我们就想到了正则表达式,在 ...

  6. 【视频教程】利用Excel轻松爬取网页上的数据

    说到从网上抓取数据,大多数人马上想到的就是Python,但是有的时候不用Python也可以搞定.今天给大家分享一篇如何利用Excel抓取网站上我们所需要的多页数据. 如抓取新浪财经股票页面中的2019 ...

  7. java 字符串 加密_如何用JAVA实现字符串简单加密解密?

    展开全部 java加密字符串可以使用des加密算法62616964757a686964616fe4b893e5b19e31333363376462,实例如下: package test; import ...

  8. java 字符串加密_如何用JAVA实现字符串简单加密解密?

    展开全部 java加密字符串可以使用des加密算法,实例如62616964757a686964616fe59b9ee7ad9431333337616636下: package test; import ...

  9. java dwg文件_如何用java实现dwg的预览图?

    网上有c#,但实在不知道该如何转换. public class ViewDWG { //C# TO JAVA CONVERTER WARNING: Java does not allow user-d ...

最新文章

  1. Singleton 单例模板
  2. XGBoost输出特征重要性以及筛选特征
  3. 谈谈我开发过的几套语音通信解决方案
  4. php生成唯一的加密串,hashids.php-master整数生成唯一字符串的加密库
  5. tableau系列之如何将甘特图做成瀑布图
  6. C语言 ungetc将变量存放的字符返回给stdin输入流
  7. HP, That's A Dream Or Not?
  8. html按钮分享功能实现,一个分享按钮的插件使用介绍(可扩展,内附开发制作流程)...
  9. VS编辑代码时使用正则表达式去掉行号
  10. linux 下搭建postfix服务器
  11. leetcode691:Stickers to Spell Word
  12. 姓名大战c语言,c语言姓名大作战游戏
  13. 快递100码json
  14. 新式汉语拼音使用方法及相关数据,用与交流编程只能用英语字母的环境使用
  15. winhex教程 转
  16. 基于ESP-IDF环境的ESP32-C3开发
  17. android手机怎么改字体,手机字体怎么改 安卓手机字体修改教程
  18. 国内IT软件外包公司汇总(2023 最新版)!
  19. 模具行业ERP信息化(转)
  20. Unity HDRP Volume框架 — Lighting(光照)

热门文章

  1. php mysql两个表合并_php操作mysql两个数据库中表的数据同步
  2. 2、使用 kubeadm 方式快速部署K8S集群
  3. 高中上不上分数低学计算机,中考分数低该怎么办 上不了高中有什么出路
  4. 为什么运行了java文件老是404_哪位能帮助一下,JAVA中我运行页面时不能打开,总是出现404错误,为什么;用的是Tomcat7.0,win7的系统,...
  5. python函数进阶小结_Python-进阶-functools模块小结
  6. python实现tcp发包_python 多线程tcp udp发包 Dos工具。
  7. opencv cv2 视频延迟
  8. stm32 工业按键检测_「正点原子STM32Mini板资料连载」第七章 按键输入实验
  9. brave浏览器_兼容Chrome 插件的Brave浏览器,带给你更快速的上网冲浪体验
  10. python listen_python socket编程中listen和accept的区别