• 写博客
  • 发Chat
  • 传资源
  • 登录注册

Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析

2018年03月01日 15:00:12 阅读数:393 标签: java爬虫httpClientjsoup 更多

个人分类: java开发笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/coqcnbkggnscf062/article/details/79412587

前言

在了解了爬虫的大概原理和目前的技术现状之后,我就开始了java爬虫的蹒跚之旅。

首先我想到的是用框架,了解到的主流的Nutch、webmagic、webcollector等等,都看了一遍,最好懂的是webmagic,因为是国人开发的,有中文文档,看的很舒服。刚开始写练手的demo之后发现都很舒服,设置好对应爬取规则、爬取深度之后,就能得到想要的数据。

但是当我正式准备开发的时候,很快就发现我的业务场景并不适用于这些框架(Emm..当然也有可能是我太菜了)。

为什么这么说呢,让我们先回到上篇中我摘录的爬虫原理,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

也就是,目标数据所在的网页的url都是在上一层页面上可以抽取到的,对应到页面上具体的讲法就是,这些链接都是写在html 标签的 href 属性中的,所以可以直接抽取到。

那些demo中被当做抓取对象的网站一般是douban、baidu、zhihu之类的数据很大的公开网站,url都是写在页面上的,而我的目标网站时险企开放给代理公司的网站,具有不公开、私密的性质,一个页面转到下一个页面的请求一般都是通过js动态生成url发起的,并且很多是post请求。

虽然那些框架有很多优越诱人的特性和功能,本着先满足需求,在进行优化的原则,我准备先用比较底层的工具一步步的模拟这些http请求。

正好,我发现webmagic底层模拟请求的工具用的就是Apache HttpClient,所以就用这个工具来模拟了。

HttpClient

HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包。它相比传统的 HttpURLConnection,增加了易用性和灵活性,它不仅让客户端发送 HTTP 请求变得更容易,而且也方便了开发人员测试接口(基于 HTTP 协议的),即提高了开发的效率,也方便提高代码的健壮性

在搜索相关资料的时候,会发现网上有两种HttpClient。

org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别:Commons的HttpClient项目现在是生命的尽头,不再被开发,已被Apache HttpComponents项目HttpClient和的HttpCore模组取代,提供更好的性能和更大的灵活性

所以在查找的时候别搞混了哦,英语好的同学推荐阅读HttpClient的官方文档

实战

所有HTTP请求都有由方法名,请求URI和HTTP协议版本组成的请求行。

HttpClient支持开箱即用HTTP/1.1规范中定义的所有HTTP方法:GET, HEAD,POST, PUT, DELETE,TRACE and OPTIONS。它们都有一个特定的类对应这些方法类型: HttpGet,HttpHead, HttpPost,HttpPut, HttpDelete,HttpTrace, and HttpOptions.

请求的URI是统一资源定位符,它标识了应用于哪个请求之上的资源。HTTP请求的URI包含协议方案,主机名,可选的端口,资源路径,可选查询和可选片段。

在开发过程中,主要处理都是get和post请求。

HTTP GET

模拟get请求

public static String sendGet(String url) {CloseableHttpClient httpclient = HttpClients.createDefault();CloseableHttpResponse response = null;String content = null;try {HttpGet get = new HttpGet(url);response = httpClient.execute(httpGet);HttpEntity entity = response.getEntity();content = EntityUtils.toString(entity);EntityUtils.consume(entity);return content;} catch (Exception e) {e.printStackTrace();if (response != null) {try {response.close();} catch (IOException e1) {e1.printStackTrace();}}}return content;}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

url可以自己直接写上去,包括包含的参数。例如:http://www.test.com/test?msg=hello&type=test

HttpClient 提供 URIBuilder 实用类来简化请求 URL的创建和修改.

URI uri = new URIBuilder().setScheme("http").setHost("www.test.com").setPath("/test").setParameter("msg", "hello").setParameter("type", "test").build();
HttpGet httpget = new HttpGet(uri);
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

HTTP POST

发送POST请求时,需要向服务器写入一段数据。这里使用setEntity()函数来写入数据:

按照自己的经验,发送的数据由你要模拟的请求,按请求头中Content-type来分,可以分为application/x-www-form-urlencodedapplication/json 
对应常见的HTML表单提交和json数据提交

    // application/x-www-form-urlencodedpublic static String sendPost(HttpPost post, List<NameValuePair> nvps) {CloseableHttpClient httpclient = HttpClients.createDefault();CloseableHttpResponse response = null;String content = null;try {// nvps是包装请求参数的listif (nvps != null) {post.setEntity(new UrlEncodedFormEntity(nvps, "UTF-8"));}// 执行请求用execute方法,content用来帮我们附带上额外信息response = httpClient.execute(post);// 得到相应实体、包括响应头以及相应内容HttpEntity entity = response.getEntity();// 得到response的内容content = EntityUtils.toString(entity);EntityUtils.consume(entity);return content;} catch (Exception e) {e.printStackTrace();} finally {if (response != null) {try {response.close();} catch (IOException e) {e.printStackTrace();}}}return content;}// application/jsonpublic static String sendPostJson (String url, JSONObject object) {HttpPost httpPost = new HttpPost(url);CloseableHttpClient httpclient = HttpClients.createDefault();try {// json方式StringEntity entity = new StringEntity(object.toString(),"utf-8");//解决中文乱码问题entity.setContentEncoding("UTF-8");entity.setContentType("application/json;charset=UTF-8");httpPost.setEntity(entity);HttpResponse resp = httpClient.execute(httpPost);if(resp.getStatusLine().getStatusCode() == 200) {HttpEntity he = resp.getEntity();return EntityUtils.toString(he,"UTF-8");}} catch (IOException e) {e.printStackTrace();}return null;}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52

HttpEntiy接口

Entity 是 HttpClient 中的一个特别的概念,有着各种的 Entity ,都实现自 HttpEntity 接口,输入是一个 Entity,输出也是一个 Entity 。这和 HttpURLConnection 的流有些不同,但是基本理念是相通的。对于 Entity ,HttpClient 提供给我们一个工具类 EntityUtils,使用它可以很方便的将其转换为字符串。

大多数的 HTTP 请求和响应都会包含两个部分:头和体,譬如请求头请求体,响应头响应体, Entity 也就是这里的 “体” 部分,这里暂且称之为 “实体” 。一般情况下,请求包含实体的有 POST 和 PUT 方法,而绝大多数的响应都是包含实体的,除了 HEAD 请求的响应,还有 204 No Content、304 Not Modified 和 205 Reset Content 这些不包含实体。

HttpClient 将实体分为三种类型:

  • streamed(流式): 从流中获取或者是动态生成内容。尤其是这个类型包含了从HTTP响应中获取的实体。流式实体是不可重复生成的。

  • self-contained(自包含式): 通过内存、使用独立的连接、其他实体的方式来获得内容。自包含实体可以重复生成。这种类型的实体将主要被用于封闭HTTP请求。

  • wrapping(包装式): 通过其他实体来获得内容.

上面的例子中我们直接使用工具方法 EntityUtils.toString() 将一个 HttpEntity 转换为字符串,虽然使用起来非常方便,但是要特别注意的是这其实是不安全的做法,要确保返回内容的长度不能太长,如果太长的话,还是建议使用流的方式来读取:

CloseableHttpResponse response = httpclient.execute(request);
HttpEntity entity = response.getEntity();
if (entity != null) {long length = entity.getContentLength();if (length != -1 && length < 2048) {String responseBody = EntityUtils.toString(entity);}else {InputStream in = entity.getContent();// read from the input stream ...}
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

HTTP Header

HTTP Header 分为request headerresponse header。在我自己开发的时候,有时候需要把一次request header都模拟了,因为服务器端有可能会对请求的header进行验证,有些网页还会根据User-Agent不同返回不同的页面内容。也有时候需要对response header进行解析,因为服务器会将用于下一步验证所需的秘钥放在header中返回给客户端。

添加头部信息:

HttpPost post = new HttpPost(url);
post.setHeader("Content-Type", "application/json;charset=UTF-8");
post.setHeader("Host", "www.test.com.cn");
  • 1
  • 2
  • 3

addHeader()setHeader(),前者是新增头部信息,后者可以新增或者修改头部信息。

读取头部信息:

HttpResponse resp = httpClient.execute(···);
// 读取指定header的第一个值
resp.getFirstHeader(headerName).getValue();
// 读取指定header的最后一个值
resp.getLastHeader(headerName).getValue();
// 读取指定header
resp.getHeaders(headerName);
// 读取所有的header
resp.getAllHeaders();
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

页面解析

页面解析需要讲的东西太少,就直接放到这一章里面一起讲了。

前面讲了怎么用httpClient模拟Http请求,那怎么从html页面拿到我们想要的数据呢。

这里就引出了jsoup页面解析工具。

jsoup

Jsoup是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

以www.csdn.com为例。

如果我要获取当前选中元素中的标题文字。

String page = "..."; // 假设这是csdn页面的html
Document doc = Jsoup.parse(page);   //得到document对象
Element feedlist = doc.select("#feedlist_id").get(0); // 获取父级元素
String title = feedlist.select("a").get(0).text(); // 获取第一个a标签的内容
// 如果是input之类的标签,取value值就是用val()方法
  • 1
  • 2
  • 3
  • 4
  • 5

上述代码用的是css选择器的方法,熟悉前端dom操作的童鞋们应该是蛮熟悉的。同时jsoup也支持直接获取dom元素的方法。

// 通过Class属性来定位元素,获取的是所有带这个class属性的集合
getElementsByClass()
// 通过标签名字来定位元素,获取的是所有带有这个标签名字的元素结合
getElementsByTag();
// 通过标签的ID来定位元素,这个是精准定位,因为页面的ID基本不会重复
getElementById();
// 通过属性和属性名来定位元素,获取的也是一个满足条件的集合;
getElementsByAttributeValue();
// 通过正则匹配属性
getElementsByAttributeValueMatching()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

正则表达式

正则表达式实际上也是页面解析中非常好用的一种方式,主要是因为我在分析我需要抓取数据的页面上发现,我需要的数据并不在dom元素中,而是在js脚本中,所以直接用正则表达式获取会比较方便。

    Matcher matcher;String page; = "..."; // 页面htmlString regex = "..."; // 正则表达式matcher = Pattern.compile(regex).matcher(page);if (matcher.find())// 子询价单号String rst = matcher.group(1);
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

刚开始犯了一个很傻的错误,没有执行matcher.find()方法就直接用matcher.group(1)去赋值,导致报错。

这里推荐一个正则表达式工具.

区块链开发?会这个技术轻松找工作

区块链以太坊DApp开发是怎么炼成的?区块链的日益火爆和备受追捧,使得区块链开发人才稀缺,同时更加伴随着高薪,想要转型却不了解,特整理出学习大纲分享

想对作者说点什么? 我来说一句

爬虫的常见陷阱以及Java爬虫思路

never_cxb

9215

前言本文是这篇文章《Java实现爬虫给App提供数据(Jsoup 网络爬虫)》 http://blog.csdn.net/never_cxb/article/details/50524571 的衍生。...

java通过httpclient抓取需要登录的网站数据

fengyekafei

794

最近遇到一个抓取网站数据的问题,普通的抓取,一般直接json解析或者用jsoup解析文档即可,这次遇到的网站首先需要登录,其次传递的参数也有点不一样。1、首先抓包获取登录的url,新建post请求Ht...

HttpUnit模拟按钮点击以及爬虫实现

u013775952

1.1万

HttpUnit 简介 HttpUnit 本质上相当于一个后台的透明的浏览器引擎,使用java中的HttpUnit可以实现模拟点击按钮,抓取网页元素,实现动态爬虫,之前一直使用jsoup进行爬虫,不过...

JAVA 爬虫httpclient post请求提交表单获取Ajax数据

hotpots

1171

public static String httpPostWithJSON(String url) throws Exception { HttpPost httpPost = ne...

JAVA发送HttpClient请求及接收请求结果过程

qq_26562641

1668

1、写一个HttpRequestUtils工具类,包括post请求和get请求 1 2 3 4 5 6 7 8 9 ...

如何将爬虫完全伪装成为用户在浏览器的点击行为

wang1144

1.3万

另外解密恶意广告主识别的文章,据说涉密了,因为担心公司的保密协议,先删除了安全第一。     本文讲述了一种使用浏览器内核进行伪装的新爬虫,它可以轻易的欺骗CNZZ的数据统计,抓取动态内容。我首先介...

中国海参85%都是假的!10年女参农曝光30年行业丑闻!闪靓网络 · 顶新

关于Jsoup 伪装请求

kfanning

5121

public static void main(String[] args) throws MalformedURLException, IOException { // Document pars...

[Jsoup模拟浏览器:post方式模拟登陆获取网页数据(二)

dietime1943

5642

本篇文章是利用Jsoup模拟登陆GitHub。这里仅限交流学习用,如利用代码进行恶意攻击他网站,和作者无关 ^ ^! 从一个URL获取Document对象的其他姊妹章: 模拟浏览器:get方式简单获取...

Jsoup 爬取页面的数据和 理解HTTP消息头

hu948162999

6491

推荐一本书:黑客攻防技术宝典.Web实战篇 ; 顺便留下一个疑问:是否能通过jsoup大量并发访问web或者小型域名服务器,使其瘫痪?其实用jsoup熟悉的朋友可以用它解析url来干一件...

Jsoup系列学习(1)-发送get或post请求

baidu_32739019

211

原文地址 简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来...

文章热词

java word打开 java 模板+参数 java收集控制台一行 java代码抽奖 java 对象动态堆

相关热词

java‖ 与java java的~ java  java和--

jsoup的基础理论(一)

xh16319

6618

一、   JSOUP简介 在以往用java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现...

使用Jsoup解析网页

gfd54gd5f46

2806

Jsoup解析网页 网页分析 实战

Get 和Post 请求原理详解

KevinwuwenboA

3165

浅谈HTTP中Get与Post的区别   Http定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE。URL全称是资源描述符,我们可以这样认为:一个...

聪明的女人从不买面膜,睡前这样做,皱纹全消显年轻!科豆 · 顶新

爬虫基本原理详解

bingo_ShenWei

107

爬虫的定义:请求网站并提取数据的自动化程序put请求的参数会包含在url中,而post则不会响应体就是源代码.先得到文件的类型,就是源代码,然后在继续请求内置的各种链接,一般都是图片啊,视频之类的.如...

apache + httpclient4 + jsoup 进行模拟浏览器url访问

sd4000784

8872

Hi,各位好,好久不玩博客了,最近在新公司无聊的时候,在查看一个其他网站的注册源代码时 发现了一处bug 首先前台页面是这样的结构(不显示相关网站的敏感信息) 这是一个很普通的注册页面,ok,我们看...

java爬虫实战(1):抓取信息门户网站中的图片及其他文件并保存至本地

w305172521

8001

java爬虫实战(1):抓取新闻网站中的图片和文件并保存至本地本实战仅作为学习和技术交流使用,转载请注明出错;本实战中的代码逻辑编写参考《自己动手写网络爬虫》一书,本书提供的章节源码由于是第一篇实战,...

爬虫系列(一)——网页请求HttpClient

Daybreak1209

4307

爬虫系列博客将从以下几个方面介绍相对编写网页爬虫核心过程。     爬虫系列(一)——网页请求HttpClient     爬虫系列(二)——网页解析Jsoup     爬虫系列(三)——多线程爬...

HTTP请求行、请求头、请求体详解

u010256388

9.3万

HTTP请求

Android Retrofit 实现(图文上传)文字(参数)和多张图片一起上传

jdsjlzx

2.8万

背景在有心课堂《自己动手写HTTP框架》课程中有下列课程:自拍要发朋友圈如何实现 http://stay4it.com/course/4/learn#lesson/208通过自己写的HTTP框架实现将...

Java爬虫进阶-Jsoup+httpclient获取动态生成的数据

Smile_Miracle

6170

前面我们详细讲了一下Jsoup发现这玩意其实也就那样,只要是可以访问到的静态资源页面都可以直接用他来获取你所需要的数据,详情情跳转-Jsoup爬虫详解,但是很多时候网站为了防止数据被恶意爬取做了很多遮...

java爬虫--免登录,通过httpclient模拟登录并获取登录后的信息

u014315941

1.2万

1、使用依赖 httpclient 进行http请求 jsoup 对html进行解析 org.jsoup jsoup ...

利用jsouphttpclient来进行网站的爬取

zhu714702382

787

建议:事先定义一个线程池进行线程托管,推荐线程数20需定义:pool、worker、task、queue等参数(在此并不进行线程的讨论) 一、请求模拟 定义默认的一个closeableHttp...

HttpClient+jsoup实现网页数据抓取和处理

java_zys

2845

介绍一种简单的网页抓取和处理方案

早知道腰椎这个办法能治,还动什么手术啊华蓥华兴医院 · 顶新

利用httpClient和htmlParse获取网页iframe数据

p793049488

4106

/** * 定义内部类,获取抓取的网页数据中iframe的src包含http://的值。 * 2014-08-14 16:52:10 * @author pengyh * ...

Http 请求原理简介

u013818525

223

HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP,使HTTP客户(如Web浏览器)能够从HTTP服务器(Web服务器)请求...

post和get 请求区别+原理

KevinwuwenboA

2592

一、原理区别 一般我们在浏览器输入一个网址访问网站都是GET请求;再FORM表单中,可以通过设置Method指定提交方式为GET或者POST提交方式,默认为GET提交方式。 HTTP定义了与服务器...

揭秘Java网络爬虫程序原理

axi295309066

1.9万

随着互联网+时代的来临,越来越多的互联网企业层出不穷,涉及游戏、视频、新闻、社交、电商、房产、旅游等众多行业。如今互联网成为大量信息的载体,如何有效地从中提取有价值的信息并利用这些信息成为一个巨大的挑...

网络爬虫原理

qy20115549

2.1万

目录1网络爬虫原理 2写网络爬虫的原因 3网络爬虫的流程 4网络抓包 5HTTP状态码说明 6Java网络爬虫需要的基础知识 1、网络爬虫原理网络爬虫指按照一定的规则(模拟人工...

Jsoup解析网页(二)爬虫解析一个完整的网页

u010248330

862

以我做的一个项目中的需求为例子, 需求:爬虫一个网页,将这个网页的内容解析,解析完将这个网页下载到我们自己的服务器保存。然后通过ftp上传到另一个服务器作为外部资源给别人访问。我们就怕一个百度新闻作...

爬虫中ajax获取数据的方式(post)

changquanzhu2969

916

基于Jsoup的爬虫中ajax获取数据的方式(post)

httpClient4.3 模拟Post提交,模拟Post上传文件并解决服务端使用spingMVC时upload.parseRequest(request)解析不到File,Pos简单抓取页面数据

xun573017588

1337

import java.security.KeyManagementException; import java.security.KeyStoreException; import java.sec...

httpclient解析https网页

fjssharpsword

3113

用httpclient解析https网页,基本代码测试通过。 import javax.net.ssl.SSLContext; import javax.net.ssl.TrustManage...

Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理

coqcnbkggnscf062

1547

前言 前面两章内容阐述了httpClient怎么模拟Http请求和如何解析页面。 接下去会讲在一些实战中遇到的问题。 现在回到我的开发摸索之路,之前说到我所爬取的网页是某个险企提供给合作公司的一...

后悔知道晚了!血糖高可以这样改善,少花冤枉钱!白领 · 顶新

HttpClient+Jsoup 抓取网页信息

qq_25821067

9719

利用HttpClient和Jsoup技术抓取网页信息。HttpClient是支持HTTP协议的客户端编程工具包,并且它支持HTTP协议。 jsoup 是一款基于 Java 平台的 网页html解析器...

[Java爬虫] 使用 Jsoup + HttpClient 爬取网页图片

larger5

209

一、前言 把一篇图文并茂的优秀文章全部爬取下来,就少不了 Java 爬虫里边的 图片爬取 技术了。很多人都用来爬取美女图片,但是笔者觉得这貌似有点俗。下面笔者使用它来爬取 CSDN 【今日推荐】文章...

HtmlUnit、httpclientjsoup爬取网页信息并解析

jethai

3468

1.爬取页面效果图点击"百度一下"按钮前页面650) this.width=650;" src="http://s4.51cto.com/wyfs02/M02/7E/12/wKiom1b2ZvTxse...

爬虫实战:页面解析详细指南(正则表达式、XPath、jsoup、Gson)

magicpenta

597

4 种解析技术的介绍:正则表达式、XPath、jsoup、Gson

[Java爬虫] 使用 Jsoup+HttpClient 爬取网站基本信息

larger5

307

一、前言 说起爬虫,很多人第一反应是使用 Python 语言。但是 Java 爬虫方面也是相当成熟的,使用 Jsoup、HttpClient、HtmlUnit 就可以实现基本的需求。 【爬虫...

网络爬虫利器:fiddle+httpclient+jsoup

dreamer2020

2081

前段日子帮同学写一个网络爬虫,

【网络爬虫】【java】微博爬虫(二):如何抓取HTML页面HttpClient使用

DianaCody

1万

一、写在前面 上篇文章以网易微博爬虫为例,给出了一个很简单的微博爬虫的爬取过程,大概说明了网络爬虫其实也就这么回事,或许初次看到这个例子觉得有些复杂,不过没有关系,上篇文章给的例子只是让大家对爬虫过...

没有更多推荐了,返回首页

个人资料

Richard易

关注

原创

10

粉丝

11

喜欢

0

评论

0

等级:

访问:

5366

积分:

146

排名:

116万+

勋章:

最新文章

  • Java爬虫(八)-- httpClient进阶:HTTPS和证书认证(原理总结篇)
  • Java爬虫(七)- httpClient进阶: https 和 证书认证(讲故事篇)
  • 【开发笔记】ajax交互报错调试,请求失败状态码为0时的解析,附解决方案
  • Java爬虫(六)-- httpClient进阶:超时时间设置+cookie保存策略
  • Java爬虫(五)-- httpClient进阶:使用代理(详细解析)

个人分类

  • java开发笔记10篇

归档

  • 2018年4月3篇
  • 2018年3月6篇
  • 2018年2月1篇

热门文章

  • Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理

    阅读量:1517

  • 【开发笔记】spring + websocket 实现服务端推送消息(附几个坑)

    阅读量:1406

  • Java爬虫(四)-- Java 调用 JS 函数 模拟页面 JS 密码加密(附几个知识点)

    阅读量:398

  • Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析

    阅读量:384

  • Java爬虫(六)-- httpClient进阶:超时时间设置+cookie保存策略

    阅读量:337

联系我们

请扫描二维码联系客服

webmaster@csdn.net

400-660-0108

QQ客服 客服论坛

关于招聘广告服务 网站地图

©2018 CSDN版权所有 京ICP证09002463号

百度提供搜索支持

经营性网站备案信息

网络110报警服务

中国互联网举报中心

北京互联网违法和不良信息举报中心

  • 「码字计划」:拿万元写作基金!

登录

注册

  • 0

Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析相关推荐

  1. java chunked 解码_模拟http请求 带 chunked解析办法一

    今天在干坏事抓取别人页面时候遇到一个问题,平时我们在post数据后,大不了要求提交cookie,但是今天这个测试了N遍不需要coookie都行的,但是抓取到的始终是乱码,怎么解析都不行.于是自己又把c ...

  2. 一步步教你为网站开发Android客户端---HttpWatch抓包,HttpClient模拟POST请求,Jsoup解析HTML代码,动态更新ListView...

    本文面向Android初级开发者,有一定的Java和Android知识即可. 文章覆盖知识点:HttpWatch抓包,HttpClient模拟POST请求,Jsoup解析HTML代码,动态更新List ...

  3. Spring cloud Gateway(二) 一个Http请求的流程解析

    Spring cloud Gateway(二) 一个Http请求的流程解析 简介     通过一个简单示例,debug出Spring Cloud Gateway的一个HTTP请求的处理流程 思路整理 ...

  4. java怎样模拟点击网页,笔者操作Java+selenium实现网站模拟点击和页面数据爬取

    电脑现已成为我们工作.生活和娱乐必不可少的工具了,在使用电脑的过程中,可能会遇到Java+selenium实现网站模拟点击和页面数据爬取的问题,如果我们遇到了Java+selenium实现网站模拟点击 ...

  5. 【Java爬虫】HttpClient+Jsoup实现爬取校内新闻

    介绍 接上一篇博客,本篇主要讲如何利用上一篇的HttpUtil工具类实现爬取校内新闻 上篇地址: https://blog.csdn.net/m0_64261982/article/details/1 ...

  6. java 爬虫学习 httpclient使用

    使用httpclient 模拟游览器请求 maven 依赖 <dependency><groupId>org.apache.httpcomponents</groupId ...

  7. java爬虫-0022,模拟登录

    项目地址:https://github.com/wenrongyao/java_crawler 基本原理:用户输入登录信息=>登录成功,服务器将登录成功的信息发送的前台,通常存在cookie中= ...

  8. java模拟浏览器http请求_java使用HttpClient模拟浏览器请求

    代码如下,模仿10000次请求,为什么只成功了3次,求指教 按题主的代码,在第三次请求中,创建 HttpClientConnection 对象时就已经阻塞了,只成功3次实属正常(第三次是浏览器的请求) ...

  9. 使用HttpClient模拟POST请求

    HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的.最新的.功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建 ...

最新文章

  1. Java中的锁[原理、锁优化、CAS、AQS]
  2. VTK:PolyData之MergeSelections
  3. 织梦 详情页 php,织梦DEDECMS列表页与详情页调用图集多张图片的方法
  4. 最大传输单元(MTU)
  5. 五款优秀的端口扫描工具
  6. 幸运抽奖java_java10幸运抽奖
  7. STM32网络通信之DM9000了解
  8. linux0.11 80386段
  9. 自驾游app开发的前景和优势
  10. 彻底弄懂GMT、UTC、时区和夏令时
  11. linux下C++base64加解密与图片互转
  12. 如何给gif图添加水印
  13. android+播放器+遥控,遥控大师安卓客户端
  14. 深度解读《关于防范NFT相关金融风险倡议》透露哪些监管信号与数字藏品新发展之路?
  15. doom emacs如何安装新插件和自定义快捷键
  16. S3C2440 温度传感器ds18b20的焊接测试
  17. ckeditor使用教程
  18. Java基础之购物清单
  19. 互联网快讯:拓荆科技成功登陆科创板;极米H3S、极米Z6X Pro持续热销;盒马在上海启动“流动超市”
  20. Creating an ndarray from ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or nda

热门文章

  1. TerarkDB 数据库的性能报告与技术解析
  2. 概率论笔记(六)一维正态分布/二维正态分布/多维正态分布
  3. Mockplus实例之一看就会de五个交互功能
  4. java unset_PHP--isset()和unset()函数的用法-Java架构师必看
  5. linux宽带账号连接,linux下配置adsl宽带连接
  6. echarts地图自定义点样式,缩放计算 点聚合,自定义图例icon,label文字样式
  7. vue 二级菜单制作
  8. STM32CubeMX实现STM32 USBHID双向64字节通信(下位机部分)
  9. Unity 协程用法总结
  10. 不吹不黑,在外企的工作生活|年中总结