写博客
发Chat
传资源
登录注册

原

Java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析

2018年03月01日 15:00:12 阅读数：393 标签： java爬虫httpClientjsoup 更多

个人分类： java开发笔记

前言

在了解了爬虫的大概原理和目前的技术现状之后，我就开始了java爬虫的蹒跚之旅。

首先我想到的是用框架，了解到的主流的Nutch、webmagic、webcollector等等，都看了一遍，最好懂的是webmagic，因为是国人开发的，有中文文档，看的很舒服。刚开始写练手的demo之后发现都很舒服，设置好对应爬取规则、爬取深度之后，就能得到想要的数据。

但是当我正式准备开发的时候，很快就发现我的业务场景并不适用于这些框架（Emm..当然也有可能是我太菜了）。

为什么这么说呢，让我们先回到上篇中我摘录的爬虫原理，传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

也就是，目标数据所在的网页的url都是在上一层页面上可以抽取到的，对应到页面上具体的讲法就是，这些链接都是写在html 标签的 href 属性中的，所以可以直接抽取到。

那些demo中被当做抓取对象的网站一般是douban、baidu、zhihu之类的数据很大的公开网站，url都是写在页面上的，而我的目标网站时险企开放给代理公司的网站，具有不公开、私密的性质，一个页面转到下一个页面的请求一般都是通过js动态生成url发起的，并且很多是post请求。

虽然那些框架有很多优越诱人的特性和功能，本着先满足需求，在进行优化的原则，我准备先用比较底层的工具一步步的模拟这些http请求。

正好，我发现webmagic底层模拟请求的工具用的就是Apache HttpClient，所以就用这个工具来模拟了。

HttpClient

HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包。它相比传统的 HttpURLConnection，增加了易用性和灵活性，它不仅让客户端发送 HTTP 请求变得更容易，而且也方便了开发人员测试接口（基于 HTTP 协议的），即提高了开发的效率，也方便提高代码的健壮性

在搜索相关资料的时候，会发现网上有两种HttpClient。

org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别：Commons的HttpClient项目现在是生命的尽头，不再被开发，已被Apache HttpComponents项目HttpClient和的HttpCore模组取代，提供更好的性能和更大的灵活性

所以在查找的时候别搞混了哦，英语好的同学推荐阅读HttpClient的官方文档

实战

所有HTTP请求都有由方法名，请求URI和HTTP协议版本组成的请求行。

HttpClient支持开箱即用HTTP/1.1规范中定义的所有HTTP方法：GET, HEAD,POST, PUT, DELETE,TRACE and OPTIONS。它们都有一个特定的类对应这些方法类型: HttpGet,HttpHead, HttpPost,HttpPut, HttpDelete,HttpTrace, and HttpOptions.

请求的URI是统一资源定位符，它标识了应用于哪个请求之上的资源。HTTP请求的URI包含协议方案，主机名，可选的端口，资源路径，可选查询和可选片段。

在开发过程中，主要处理都是get和post请求。

HTTP GET

模拟get请求

public static String sendGet(String url) {CloseableHttpClient httpclient = HttpClients.createDefault();CloseableHttpResponse response = null;String content = null;try {HttpGet get = new HttpGet(url);response = httpClient.execute(httpGet);HttpEntity entity = response.getEntity();content = EntityUtils.toString(entity);EntityUtils.consume(entity);return content;} catch (Exception e) {e.printStackTrace();if (response != null) {try {response.close();} catch (IOException e1) {e1.printStackTrace();}}}return content;}

url可以自己直接写上去，包括包含的参数。例如：http://www.test.com/test?msg=hello&type=test

HttpClient 提供 URIBuilder 实用类来简化请求 URL的创建和修改.

URI uri = new URIBuilder().setScheme("http").setHost("www.test.com").setPath("/test").setParameter("msg", "hello").setParameter("type", "test").build();
HttpGet httpget = new HttpGet(uri);

HTTP POST

发送POST请求时，需要向服务器写入一段数据。这里使用setEntity()函数来写入数据：

按照自己的经验，发送的数据由你要模拟的请求，按请求头中Content-type来分，可以分为application/x-www-form-urlencoded和application/json
对应常见的HTML表单提交和json数据提交

    // application/x-www-form-urlencodedpublic static String sendPost(HttpPost post, List<NameValuePair> nvps) {CloseableHttpClient httpclient = HttpClients.createDefault();CloseableHttpResponse response = null;String content = null;try {// nvps是包装请求参数的listif (nvps != null) {post.setEntity(new UrlEncodedFormEntity(nvps, "UTF-8"));}// 执行请求用execute方法，content用来帮我们附带上额外信息response = httpClient.execute(post);// 得到相应实体、包括响应头以及相应内容HttpEntity entity = response.getEntity();// 得到response的内容content = EntityUtils.toString(entity);EntityUtils.consume(entity);return content;} catch (Exception e) {e.printStackTrace();} finally {if (response != null) {try {response.close();} catch (IOException e) {e.printStackTrace();}}}return content;}// application/jsonpublic static String sendPostJson (String url, JSONObject object) {HttpPost httpPost = new HttpPost(url);CloseableHttpClient httpclient = HttpClients.createDefault();try {// json方式StringEntity entity = new StringEntity(object.toString(),"utf-8");//解决中文乱码问题entity.setContentEncoding("UTF-8");entity.setContentType("application/json;charset=UTF-8");httpPost.setEntity(entity);HttpResponse resp = httpClient.execute(httpPost);if(resp.getStatusLine().getStatusCode() == 200) {HttpEntity he = resp.getEntity();return EntityUtils.toString(he,"UTF-8");}} catch (IOException e) {e.printStackTrace();}return null;}

HttpEntiy接口

Entity 是 HttpClient 中的一个特别的概念，有着各种的 Entity ，都实现自 HttpEntity 接口，输入是一个 Entity，输出也是一个 Entity 。这和 HttpURLConnection 的流有些不同，但是基本理念是相通的。对于 Entity ，HttpClient 提供给我们一个工具类 EntityUtils，使用它可以很方便的将其转换为字符串。

大多数的 HTTP 请求和响应都会包含两个部分：头和体，譬如请求头请求体，响应头响应体， Entity 也就是这里的 “体” 部分，这里暂且称之为 “实体” 。一般情况下，请求包含实体的有 POST 和 PUT 方法，而绝大多数的响应都是包含实体的，除了 HEAD 请求的响应，还有 204 No Content、304 Not Modified 和 205 Reset Content 这些不包含实体。

HttpClient 将实体分为三种类型：

streamed（流式）: 从流中获取或者是动态生成内容。尤其是这个类型包含了从HTTP响应中获取的实体。流式实体是不可重复生成的。
self-contained（自包含式）: 通过内存、使用独立的连接、其他实体的方式来获得内容。自包含实体可以重复生成。这种类型的实体将主要被用于封闭HTTP请求。
wrapping（包装式）: 通过其他实体来获得内容.

上面的例子中我们直接使用工具方法 EntityUtils.toString() 将一个 HttpEntity 转换为字符串，虽然使用起来非常方便，但是要特别注意的是这其实是不安全的做法，要确保返回内容的长度不能太长，如果太长的话，还是建议使用流的方式来读取：

CloseableHttpResponse response = httpclient.execute(request);
HttpEntity entity = response.getEntity();
if (entity != null) {long length = entity.getContentLength();if (length != -1 && length < 2048) {String responseBody = EntityUtils.toString(entity);}else {InputStream in = entity.getContent();// read from the input stream ...}
}

HTTP Header

HTTP Header 分为request header和response header。在我自己开发的时候，有时候需要把一次request header都模拟了，因为服务器端有可能会对请求的header进行验证，有些网页还会根据User-Agent不同返回不同的页面内容。也有时候需要对response header进行解析，因为服务器会将用于下一步验证所需的秘钥放在header中返回给客户端。

添加头部信息:

HttpPost post = new HttpPost(url);
post.setHeader("Content-Type", "application/json;charset=UTF-8");
post.setHeader("Host", "www.test.com.cn");

addHeader()和setHeader()，前者是新增头部信息，后者可以新增或者修改头部信息。

读取头部信息:

HttpResponse resp = httpClient.execute(···);
// 读取指定header的第一个值
resp.getFirstHeader(headerName).getValue();
// 读取指定header的最后一个值
resp.getLastHeader(headerName).getValue();
// 读取指定header
resp.getHeaders(headerName);
// 读取所有的header
resp.getAllHeaders();

页面解析

页面解析需要讲的东西太少，就直接放到这一章里面一起讲了。

前面讲了怎么用httpClient模拟Http请求，那怎么从html页面拿到我们想要的数据呢。

这里就引出了jsoup页面解析工具。

jsoup

Jsoup是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

以www.csdn.com为例。

如果我要获取当前选中元素中的标题文字。

String page = "..."; // 假设这是csdn页面的html
Document doc = Jsoup.parse(page);   //得到document对象
Element feedlist = doc.select("#feedlist_id").get(0); // 获取父级元素
String title = feedlist.select("a").get(0).text(); // 获取第一个a标签的内容
// 如果是input之类的标签，取value值就是用val()方法

上述代码用的是css选择器的方法，熟悉前端dom操作的童鞋们应该是蛮熟悉的。同时jsoup也支持直接获取dom元素的方法。

// 通过Class属性来定位元素，获取的是所有带这个class属性的集合
getElementsByClass()
// 通过标签名字来定位元素，获取的是所有带有这个标签名字的元素结合
getElementsByTag();
// 通过标签的ID来定位元素，这个是精准定位，因为页面的ID基本不会重复
getElementById();
// 通过属性和属性名来定位元素，获取的也是一个满足条件的集合;
getElementsByAttributeValue();
// 通过正则匹配属性
getElementsByAttributeValueMatching()

正则表达式

正则表达式实际上也是页面解析中非常好用的一种方式，主要是因为我在分析我需要抓取数据的页面上发现，我需要的数据并不在dom元素中，而是在js脚本中，所以直接用正则表达式获取会比较方便。

    Matcher matcher;String page; = "..."; // 页面htmlString regex = "..."; // 正则表达式matcher = Pattern.compile(regex).matcher(page);if (matcher.find())// 子询价单号String rst = matcher.group(1);

刚开始犯了一个很傻的错误，没有执行matcher.find()方法就直接用matcher.group(1)去赋值，导致报错。

这里推荐一个正则表达式工具.

区块链开发？会这个技术轻松找工作

区块链以太坊DApp开发是怎么炼成的？区块链的日益火爆和备受追捧，使得区块链开发人才稀缺，同时更加伴随着高薪，想要转型却不了解，特整理出学习大纲分享

想对作者说点什么？我来说一句

爬虫的常见陷阱以及Java的爬虫思路

9215

前言本文是这篇文章《Java实现爬虫给App提供数据（Jsoup 网络爬虫）》 http://blog.csdn.net/never_cxb/article/details/50524571 的衍生。...

java通过httpclient抓取需要登录的网站数据

794

最近遇到一个抓取网站数据的问题，普通的抓取，一般直接json解析或者用jsoup解析文档即可，这次遇到的网站首先需要登录，其次传递的参数也有点不一样。1、首先抓包获取登录的url，新建post请求Ht...

HttpUnit模拟按钮点击以及爬虫实现

1.1万

HttpUnit 简介 HttpUnit 本质上相当于一个后台的透明的浏览器引擎，使用java中的HttpUnit可以实现模拟点击按钮，抓取网页元素，实现动态爬虫，之前一直使用jsoup进行爬虫，不过...

JAVA 爬虫之httpclient post请求提交表单获取Ajax数据

1171

public static String httpPostWithJSON(String url) throws Exception { HttpPost httpPost = ne...

JAVA发送HttpClient请求及接收请求结果过程

1668

1、写一个HttpRequestUtils工具类，包括post请求和get请求 1 2 3 4 5 6 7 8 9 ...

如何将爬虫完全伪装成为用户在浏览器的点击行为

1.3万

另外解密恶意广告主识别的文章，据说涉密了，因为担心公司的保密协议，先删除了安全第一。本文讲述了一种使用浏览器内核进行伪装的新爬虫，它可以轻易的欺骗CNZZ的数据统计，抓取动态内容。我首先介...

中国海参85%都是假的！10年女参农曝光30年行业丑闻！闪靓网络 · 顶新

关于Jsoup 伪装请求头

5121

public static void main(String[] args) throws MalformedURLException, IOException { // Document pars...

[Jsoup] 模拟浏览器：post方式模拟登陆获取网页数据（二）

5642

本篇文章是利用Jsoup模拟登陆GitHub。这里仅限交流学习用，如利用代码进行恶意攻击他网站，和作者无关 ^ ^！从一个URL获取Document对象的其他姊妹章: 模拟浏览器：get方式简单获取...

Jsoup 爬取页面的数据和理解HTTP消息头

6491

推荐一本书：黑客攻防技术宝典.Web实战篇；顺便留下一个疑问：是否能通过jsoup大量并发访问web或者小型域名服务器，使其瘫痪？其实用jsoup熟悉的朋友可以用它解析url来干一件...

Jsoup系列学习(1)-发送get或post请求

211

原文地址简介 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来...

文章热词

java word打开 java 模板+参数 java收集控制台一行 java代码抽奖 java 对象动态堆

个人资料

Richard易

关注

原创

粉丝

喜欢

等级：

访问：

5366

积分：

146

排名：

116万+

勋章：

个人分类

java开发笔记10篇

联系我们

请扫描二维码联系客服

webmaster@csdn.net

400-660-0108

QQ客服客服论坛

关于招聘广告服务网站地图

百度提供搜索支持

经营性网站备案信息

网络110报警服务

中国互联网举报中心

北京互联网违法和不良信息举报中心

「码字计划」:拿万元写作基金！