网络爬虫的基本思路:有关键字指定的url把所有相关的html页面全抓下来(html即为字符串),然后解析为html文本(通常是正则表达式或者县城的工具包如jsoup),提取微博文本信息,然后把文本信息存储起来。

jar包依赖

httpclient-4.3.1.jar  -------建立HTTP链接,用于从url获取html

httpcore-4.3.jar

httpmime-4.3.1.jar

httpclient-cache-4.3.1.jar

fluent-hc-4.3.1.jar

fastjson-1.1.41.jar   ------解析json的工具包

jsoup-1.7.3.jar      -------解析xml,html的工具包

dom4j-1.6.1.jar     -------读写xml的工具包

commons-lang-2.1.jar

commons-logging-1.2.jar

commons-codec-1.8.jar

我用的是maven进行管理,这是jar包依赖图:

<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency><!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient --><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.6</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpcore --><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpcore</artifactId><version>4.4.10</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpmime --><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpmime</artifactId><version>4.5.6</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient-cache --><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient-cache</artifactId><version>4.5.6</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/fluent-hc --><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>fluent-hc</artifactId><version>4.5.6</version></dependency><!-- https://mvnrepository.com/artifact/com.alibaba/fastjson --><dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.51</version></dependency><!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.3</version></dependency><!-- https://mvnrepository.com/artifact/dom4j/dom4j --><dependency><groupId>dom4j</groupId><artifactId>dom4j</artifactId><version>1.6.1</version></dependency></dependencies>
复制代码

Httpclient学习日记(一)相关推荐

  1. HttpClient学习

    HttpClient学习 (1)下面列举几个主要的Http相关概念的类 类名 描述 HttpClient 建立请求客户端 HttpGet 代表请求方法,类似的还有HttpHead, HttpPost, ...

  2. java的圆周率_java学习日记,圆周率的打印

    前段时间看到听说学习java每天写技术贴会对自己提升很大,我现在学习java也就2个周,算不上技术贴,就写写学习日记吧. 昨天师傅给我出了一道题,说是试试用java打印圆周率. 刚开始我的思路是,如果 ...

  3. GPU(CUDA)学习日记(十一)------ 深入理解CUDA线程层次以及关于设置线程数的思考

    GPU(CUDA)学习日记(十一)------ 深入理解CUDA线程层次以及关于设置线程数的思考 标签: cuda存储线程结构网格 2012-12-07 16:30 6298人阅读 评论(4)收藏 举 ...

  4. GPU(CUDA)学习日记(十三)------ CUDA内存简介

    GPU(CUDA)学习日记(十三)------ CUDA内存简介 标签: cuda存储线程结构 2012-12-07 16:53 2902人阅读 评论(0)收藏 举报 分类: GPU(16) CUDA ...

  5. GPU(CUDA)学习日记(九)------ CUDA存储器模型

    GPU(CUDA)学习日记(九)------ CUDA存储器模型 标签: cuda存储bindingcache编程api 2012-09-27 10:53 1677人阅读 评论(1) 收藏 举报 分类 ...

  6. HttpClient 学习整理

    HttpClient 是我最近想研究的东西,以前想过的一些应用没能有很好的实现,发现这个开源项目之后就有点眉目了,令人头痛的cookie问题还是有办法解决滴.在网上整理了一些东西,写得很好,寄放在这里 ...

  7. 语言余一个负数_C语言学习日记(8)——整数溢出

    小时候喜欢玩电子计算器,觉得很神奇,想要算什么数,立刻就能算出来.当时看着计算器的液晶屏幕就想,如果算一个很大的数,超过了屏幕上面数字的位数,会怎么样呢?试了以后结果是INF,那就是无穷大了.虽然当时 ...

  8. SpringMVC学习日记 1.Spring框架

    SpringMVC学习日记 1.Spring框架 Spring简介 Spring框架是一个开源框架,由Rod Johnson组织和开发,生产目的在于简化企业级应用的开发. 主要特性 非侵入(no-in ...

  9. HttpClient 学习整理(转)

    来自 http://www.blogjava.net/Alpha/archive/2007/01/22/95216.html HttpClient 是我最近想研究的东西,以前想过的一些应用没能有很好的 ...

最新文章

  1. 安装交叉工具链arm-linux-gcc
  2. linux 权限 mask,Linux mask有效权限详解
  3. DjangoFreshStore项目一
  4. 饼图的引导线怎么加_4步学会EXCEL复合条饼图制作方法,让统计结果更直观!
  5. 轻量级的ORM框架 fluentdata
  6. C语言的soap报文处理转义字符,webservice传递特殊字符时的解决办法
  7. 引用类型 —— Array类型
  8. 安装Linux操作系统
  9. cocos2d-x-3.x 场景(3)场景切换特效
  10. NMEA 0183协议解析
  11. JAVA经纬度距离计算并排序-Spatial4j+ForkJoin
  12. Python实现支持人机对战的五子棋软件(超详细)
  13. 图片热区——map的用法
  14. php swool 携程,EasySwoole-延迟队列-取消订单
  15. c语言中的/和%表示什么意思
  16. LeetCode 322. 零钱兑换***
  17. pikachu靶场SQL,sqlmap解法
  18. 使用决策树算法评估汽车等级
  19. uniapp更换头像代码笔记
  20. PowerDesigner设计MySQL表结构转SQLServer问题

热门文章

  1. 上帝视角:程序员为什么需要理解 CPU?
  2. 全新 DOCKER PALS 计划上线,带给您不一样的参会体验!...
  3. Fundebug后端Java异常监控插件更新至0.2.0,支持Spring及Maven
  4. VR技术怎么落地,行业应用怎么挖掘,来江苏虚拟现实发展大会侃侃
  5. 终于完成需求模块开发了,jQuery实现的效果,PHP操作数据库
  6. ES6-const注意
  7. 如何用Java制作一个简易日历
  8. 去除源文件中的重复行的程序流程及其C代码实现
  9. Hadoop学习笔记(六)启动Shell分析
  10. android之lint警告This Handler class should be static or leaks might occur