上一篇文章介绍了  Jsoup设置请求头, 抓取网页的java 代码

这一篇文章介绍 httpClient 设置请求头 抓取网页的  java 代码实现

首先  到官网 上 下载 httpClient   这里下载的 是  4.5.5版本的

http://mirror.bit.edu.cn/apache//httpcomponents/httpclient/binary/httpcomponents-client-4.5.5-bin.zip

commons-logging-1.2.jar
httpclient-4.5.5.jar
httpcore-4.4.9.jar
httpmime-4.5.5.jar

导入到项目中 ,

新建一个类 , httpClientConnection

编写如下代码

public class httpClientConnection {
public static void main(String[] args) {
CloseableHttpClient httpclient = HttpClients.createDefault();

CloseableHttpResponse responseGet = null;
try {
// 以get方法执行请求
HttpGet httpGet = new HttpGet("http://www.cnblogs.com/szw-blog/p/8565944.html");
// 获得服务器响应的所有信息
responseGet = httpclient.execute(httpGet);
System.out.println(responseGet.getStatusLine());
// 获得服务器响应的消息体(不包括http head)
HttpEntity entity = responseGet.getEntity();

if (entity != null) {
// 获得响应字符集编码
ContentType contentType = ContentType.getOrDefault(entity);
Charset charset = contentType.getCharset();
InputStream is = entity.getContent();
// 将inputstream转化为reader,并使用缓冲读取,还可按行读取内容
BufferedReader br = new BufferedReader(
new InputStreamReader(is, charset));
String line = null;
while ((line = br.readLine()) != null) {
System.out.println(line);
}
is.close();
responseGet.close();
httpclient.close();
}
} catch (Exception e) {
e.printStackTrace();
} finally {
try {
responseGet.close();
httpclient.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}

运行后的结果是

以上就是 java 使用httpclient 抓取网页的  简单代码

转载于:https://www.cnblogs.com/szw-blog/p/8569925.html

网络爬虫入门系列(3) httpClient相关推荐

  1. 相对舒适的爬虫入门系列(一):手快尝鲜【requests库】

    一.实现爬虫命令的交互前,总是要经过环境配置的 (虽然不同系统操作层面上会有不同,本文主要讲方向性内容(配置环境)+一些具体实操代码上手,要问咱也先说咱的环境是win10哈) 1.请直接下载安装Ana ...

  2. Python爬虫入门系列——Urllib详解

    Python爬虫入门系列--Urllib详解 1.背景 1.1 初识爬虫 1.2 合法性 1.3 robots协议 2.要求 2.1 当前开发环境 2.2 编程基础 3.快速上手Urllib 3.1 ...

  3. Python网络爬虫入门

    Python网络爬虫入门 网络爬虫(web crawler),也叫网络蜘蛛(Web Spider).网络机器人(Internet Bot).简单地说,抓取万维网(World Wide Web)上所需要 ...

  4. 【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用

    [网络爬虫入门02]HTTP客户端库Requests的基本原理与基础应用 广东职业技术学院  欧浩源 2017-10-15  1.引言 实现网络爬虫的第一步就是要建立网络连接并向服务器或网页等网络资源 ...

  5. 【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器

    [网络爬虫入门04]彻底掌握BeautifulSoup的CSS选择器 广东职业技术学院  欧浩源 2017-10-21 1.引言 目前,除了官方文档之外,市面上及网络详细介绍BeautifulSoup ...

  6. 【网络爬虫入门01】应用Requests和BeautifulSoup联手打造的第一条网络爬虫

    [网络爬虫入门01]应用Requests和BeautifulSoup联手打造的第一条网络爬虫 广东职业技术学院 欧浩源 2017-10-14  1.引言 在数据量爆发式增长的大数据时代,网络与用户的沟 ...

  7. Python:网络爬虫入门

    Python:网络爬虫入门 这只是一个最最最基础版本的Python爬虫入门,代码是我两年前写的,最近两天没事翻出来再写(shui)一篇博客.就是爬取王者荣耀英雄的皮肤.然后备注也是写的十分的详细,所以 ...

  8. python爬虫学习笔记一:网络爬虫入门

    参考书目 <python网络爬虫从入门到实践>唐松 第一章 网络爬虫入门 1.1 robots协议 举例:查看京东的robots协议 京东robots协议地址 User-agent: * ...

  9. python六小时网络爬虫入门_一小时入门 Python 3 网络爬虫

    原标题:一小时入门 Python 3 网络爬虫 作者:Jack-Cui,热爱技术分享,活跃于 CSDN 和知乎,开设的<Python3网络爬虫入门>.<Python3机器学习> ...

最新文章

  1. 使用keras构建LSTM分类器
  2. 三态门有一个信号控制端en_W25Q32JVSSIQ|哪些PCB设计会影响信号质量?
  3. 自定义控件(一) Activity的构成(PhoneWindow、DecorView)
  4. python调用电脑蜂鸣器一直响_电脑开机蜂鸣器一直响,9声滴~,什么问题?怎么处理?...
  5. 基于哈希算法的web账户口令存储方法
  6. Linux跨平台远程控制
  7. jenkins构建触发器定时任务
  8. C - Swaps 2(树状数组,思维)
  9. [NOI2013]树的计数
  10. 手机突然电量消耗很快_手机掉电突然变快?这5点操作你肯定至少做了其中一个!...
  11. mysql shell可视化_shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中...
  12. dateformat-参数表
  13. C#事件的自定义声明
  14. Python实现贷款用户的信用评分卡
  15. DB2 表字段值变更记录
  16. 怎么把图片变成PDF
  17. LeetCode热题100中使用辅助栈方法的题目的整理(待更)
  18. 戴尔电脑怎么安装一级计算机,戴尔电脑如何重装系统
  19. 一文看懂WebRTC媒体服务器
  20. mysql MMM架构

热门文章

  1. Jenkins添加从节点相关配置
  2. Spring实现web开发的环境搭建
  3. Selenium自动写公众号文章
  4. php军事网站源码,军事网站的设计与实现(PHP+MYSQL)(含录像)
  5. html两条下划线重叠,文字和text-decoration:underline下划线重叠问题
  6. java解决特殊字符输出
  7. KDDockWidgets源码编译及安装
  8. 【已解决】如何干干净净的卸载MySQL数据库
  9. java.sql.SQLException: Before start of result set ---错误笔记
  10. 有趣的网页注释代码,保护我方源码