在运行int statusCode = httpClient.executeMethod(postMethod); 的时候需要获得网页响应状态码。
Http状态码通常分为5类,分别以数字1-5开头,由3位整数组成。
1XX主要用作试验用途(之后补充,此次填写2016/12/13);

状态码 代码描述 处理方式
200 请求成功 获得响应内容,进行处理
201 请求完成,结果是创建了新资源,新创建资源的URI可在响应的实体中得到 爬虫中不会遇到
202 请求被接受,但处理尚未完成 阻塞等待
204 服务器端已经实现了请求,但是没有返回新的信息。如果客户是用户代理,则无需为此更新自身的文档视图 丢弃
300 该代码不被HTTP1.0的应用程序直接使用,只是作为3XX类型回应的某人解释。存在多个可用的被请求资源 若程序中能够处理,则进一步处理,如果程序中不能处理,则丢弃
301 请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源 重定向分配的URL
302 请求道的资源在一个不同的URL处临时保存 重定向到临时的URL
304 请求的资源未更新 丢弃
400 非法请求 丢弃
401 未授权 丢弃
403 禁止 丢弃
404 没有找到 丢弃
5XX 服务器端发现自己的错误,不能继续执行请求 丢弃

如果状态码是3XX意味着需要进行转向操作:

if ((statusCode == HttpStatus.SC_MOVED_TEMPORARILY)||(statusCode==HttpStatus.SC_MOVED_TEMPORARILY)||(statusCode==HttpStatus.SC_SEE_OTHER)||(statusCode==HttpStatus.SC_TEMPORARY_REDIRECT)){//读取新的URL地址Header header=postMethod.getRequestHeader("location");if(header!=null){String newUrl=header.getValue();if(newUrl==null||newUrl.equals("")){newUrl="/";//使用post转向PostMethod redirector=new PostMethod(newUrl);//发送数据,作进一步处理//.....}}}

《自己动手写网络爬虫》笔记2-Http状态码相关推荐

  1. 网页爬虫python代码_《用python写网络爬虫》完整版+源码

    原标题:<用python写网络爬虫>完整版+源码 <用python写网络爬虫>完整版+附书源码 本书讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中 ...

  2. 记录《自己动手写网络爬虫 》书中涉及的内容学习一些算法

    第1篇  自己动手抓取数据 第1章  全面剖析网络爬虫 3 1.1  抓取网页 4 1.1.1  深入理解URL 4 1.1.2  通过指定的URL抓取 网页内容 6 1.1.3  Java网页抓取示 ...

  3. 《用python写网络爬虫》完整版+源码

    向AI转型的程序员都关注了这个号

  4. Python 网络爬虫笔记11 -- Scrapy 实战

    Python 网络爬虫笔记11 – Scrapy 实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...

  5. 网络爬虫笔记—Selenium

    网络爬虫笔记-Selenium 1.简介及环境安装 Selenium是一种自动化测试工具,利用它可以操作浏览器执行固定动作,例如点击.下拉等操作.在日常工作中,如果你需要用浏览器并且重复某项操作,那S ...

  6. 《用Python写网络爬虫第2版》PDF中英文+代码分析

    互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问.但是,这些数据难以复用.它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用.从网页中抽取数据的过程又称为网络爬虫,随着越来越多的信息 ...

  7. 网络爬虫笔记—图形验证码获取

    网络爬虫笔记-图形验证码获取 1.验证码获取思路 1)使用selenium库操作谷歌浏览器,打开目标网站: 2)对目标网站进行截图,并将图片保存到本地: 3)获取验证码元素节点在屏幕上的位置,即横纵坐 ...

  8. python爬虫教程:Python写网络爬虫的优势和理由

    在本篇文章里小编给各位整理了一篇关于选择Python写网络爬虫的优势和理由以及相关代码实例,有兴趣的朋友们阅读下吧. 什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页 ...

  9. 网络爬虫笔记—滑动验证码识别

    网络爬虫笔记-滑动验证码识别 一.什么是滑动验证码 点击之前 点击之后 像这种通过滑动图片,补全缺口的方式,就是滑动验证码. 二.识别思路 1)使用selenium库操作谷歌浏览器,打开目标网站:关于 ...

  10. 《用Python写网络爬虫》——1.5 本章小结

    本节书摘来自异步社区<用Python写网络爬虫>一书中的第1章,第1.5节,作者 [澳]Richard Lawson(理查德 劳森),李斌 译,更多章节内容可以访问云栖社区"异步 ...

最新文章

  1. 小程序不同页面之间通讯的解决方案
  2. GPU视频解码之CUVID
  3. Grafana plugins zabbix 安装
  4. Error: Could not open client transport with JDBC Uri: jdbc:hive2://henu2:10000: java.n et.ConnectExc
  5. 爬虫项目(四)---采集从01月22日以来全国各省疫情数据
  6. 对抗思想与强化学习的碰撞-SeqGAN模型原理和代码解析
  7. easyexcel 设置标题_使用easyexcel完成复杂表头及标题的导出功能(自定义样式)
  8. 有关正则表达式的一些用法总结
  9. CSS 框的生成:块级元素和块框
  10. 【Vue】—处理边界情况
  11. Moodle插件开发大全
  12. 漫画 | 中断引发的面试教训
  13. QTP自动化测试-点滴-步骤
  14. linux DNS 简单配置
  15. 《深入浅出通信原理》一句话短评
  16. drools规则引擎介绍
  17. CUDA文件缺失解决方法——以cudart64_110.dll not found为例
  18. 软件测试的艺术读书笔记<转>
  19. linux下sctp的安装、使用与编程
  20. php获取alexa世界排名值的函数

热门文章

  1. 美通企业日报 | 英特尔百度签署新合作备忘录;佛山照明与阿里云战略合作物联网生态...
  2. 信号与系统实验八 音频信号的时域、频域观测分析与图像的幅频相频重构
  3. 支付宝 错误代码 insufficient-isv-permissions 错误原因: ISV权限不足,建议在开发者中心检查签约是否已经生效
  4. Oracle中索引的原理
  5. 十分钟看懂AlphaGo的核心算法
  6. java系统课程设计报告_JAVA学生管理系统课程设计报告
  7. 微型计算机的硬件原理图,电脑硬件基础图解
  8. CATIA软件有限元分析功能详解及使用教程
  9. 软件工程---客观题
  10. 笔试12:Bootstrap知识