HTTP协议的讲解

本文章属于爬虫入门到精通系统教程第三讲

什么是HTTP协议?

引用自维基百科

超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是互联网上应用最为广泛的一种网络协议。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。通过HTTP或者HTTPS协议请求的资源由统一资源标识符(Uniform Resource Identifiers,URI)来标识。
HTTP的发展是由蒂姆·伯纳斯-李于1989年在欧洲核子研究组织(CERN)所发起。由万维网协会(World Wide Web Consortium,W3C)和互联网工程任务组(Internet Engineering Task Force,IETF)制定标准,最终发布了一系列的RFC,其中最著名的是1999年6月公布的 RFC 2616,定义了HTTP协议中现今广泛使用的一个版本——HTTP 1.1。
2014年12月,互联网工程任务组(IETF)的Hypertext Transfer Protocol Bis(httpbis)工作小组将HTTP/2标准提议递交至IESG进行讨论[1],于2015年2月17日被批准。[2] HTTP/2标准于2015年5月以RFC 7540正式发表,替换HTTP 1.1成为HTTP的实现标准。[3]

HTTP是一个客户端终端(用户)和服务器端(网站)请求和应答的标准(TCP)。通过使用网页浏览器、网络爬虫或者其它的工具,客户端发起一个HTTP请求到服务器上指定端口(默认端口为80)。我们称这个客户端为用户代理程序(user agent)。应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”,比如代理服务器、网关或者隧道(tunnel)。
尽管TCP/IP协议是互联网上最流行的应用,HTTP协议中,并没有规定必须使用它或它支持的层。事实上,HTTP可以在任何互联网协议上,或其他网络上实现。HTTP假定其下层协议提供可靠的传输。因此,任何能够提供这种保证的协议都可以被其使用。因此也就是其在TCP/IP协议族使用TCP作为其传输层。
通常,由HTTP客户端发起一个请求,创建一个到服务器指定端口(默认是80端口)的TCP连接。HTTP服务器则在那个端口监听客户端的请求。一旦收到请求,服务器会向客户端返回一个状态,比如"HTTP/1.1 200 OK",以及返回的内容,如请求的文件、错误消息、或者其它信息。

一个实例

  • 打开爬虫从入门到精通系统教程---目录 这个网页

  • 按键盘上的F12(开发者工具)

  • 点击键盘上的F5刷新下网页

  • 点击Network

  • 点击Doc

应该会看到如下界面

然后我们点击25296437

应该会看到如下界面

General

Request URL:https://zhuanlan.zhihu.com/p/25296437 (爬虫会用到)

这个对应HTTP协议中的统一资源定位符也就是我们打开的网址

Request Method:GET(爬虫会用到)

这个对应HTTP协议中的请求方法,我们这次用的是GET

请求方法有以下这些,常用的是GET,POST

  • GET:向指定的资源发出“显示”请求。使用GET方法应该只用在读取数据,而不应当被用于产生“副作用”的操作中,例如在Web Application中。其中一个原因是GET可能会被网络蜘蛛等随意访问。参见安全方法

  • POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源,或二者皆有。

  • OPTIONS:这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用'*'来代替资源名称,向Web服务器发送OPTIONS请求,可以测试服务器功能是否正常运作。

  • HEAD:与GET方法一样,都是向服务器发出指定资源的请求。只不过服务器将不传回资源的本文部分。它的好处在于,使用这个方法可以在不必传输全部内容的情况下,就可以获取其中“关于该资源的信息”(元信息或称元数据)。

  • PUT:向指定资源位置上传其最新内容。

  • DELETE:请求服务器删除Request-URI所标识的资源。

  • TRACE:回显服务器收到的请求,主要用于测试或诊断。

  • CONNECT:HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。通常用于SSL加密服务器的链接(经由非加密的HTTP代理服务器)。

Status Code:200 OK(爬虫会用到)

这个对应HTTP协议中的状态码,我们这次返回的是200 OK、

所有HTTP响应的第一行都是状态行,依次是当前HTTP版本号,3位数字组成的状态代码,以及描述状态的短语,彼此由空格分隔。

状态代码的第一个数字代表当前响应的类型:

  • 1xx消息——请求已被服务器接收,继续处理

  • 2xx成功——请求已成功被服务器接收、理解、并接受

  • 3xx重定向——需要后续操作才能完成这一请求

  • 4xx请求错误——请求含有词法错误或者无法被执行

  • 5xx服务器错误——服务器在处理某个正确请求时发生错误

常见状态代码、状态描述、说明:

  • 200 OK //请求成功

  • 400 Bad Request //客户端请求有语法错误,不能被服务器所理解

  • 401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用

  • 403 Forbidden //服务器收到请求,但是拒绝提供服务

  • 404 Not Found //请求资源不存在,eg:输入了错误的URL

  • 500 Internal Server Error //服务器发生不可预期的错误

  • 503 Server Unavailable //服务器当前不能处理客户端的请求,一段时间后可能恢复正常

Requests Headers(请求头)

Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8(爬虫会用到)

Accept请求报头域用于指定客户端接受哪些类型的信息。eg:Accept:image/gif,表明客户端希望接受GIF图象格式的资源;Accept:text/html,表明客户端希望接受html文本。

Accept-Encoding:gzip, deflate, sdch, br

Accept-Encoding请求报头域类似于Accept,但是它是用于指定可接受的内容编码。eg:Accept-Encoding:gzip.deflate.如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。

Accept-Language:zh-CN,zh;q=0.8

Accept-Language请求报头域类似于Accept,但是它是用于指定一种自然语言。eg:Accept-Language:zh-cn.如果请求消息中没有设置这个报头域,服务器假定客户端对各种语言都可以接受

Cache-Control:no-cache

Cache-Control 是用来控制网页的缓存,详细可以Cache-control_百度百科

Connection:keep-alive

HTTP持久连接(HTTP persistent connection,也称作HTTP keep-alive或HTTP connection reuse)是使用同一个TCP连接来发送和接收多个HTTP请求/应答,而不是为每一个新的请求/应答打开新的连接的方法。

详情介绍请参考HTTP持久连接

Cookie:d_c0="AACAWNtZswqPTnJ8dFXqaygiq82ekPD5_-xxxx(爬虫会用到)

Cookie(复数形态Cookies),中文名称为“小型文本文件”或“小甜饼”[1],指某些网站为了辨别用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密)。定义于RFC2109。是网景公司的前雇员卢·蒙特利在1993年3月的发明[2]。详情介绍请参考Cookie

举个例子,当我登录知乎后,知乎会给我一个cookie,然后我在以后的一段时间内,每次打开知乎,都不需要重新登录。这是因为浏览器每次都会把我之前存储的cookie带上。

Host:zhuanlan.zhihu.com

当前请求网址的请求域

User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36(爬虫会用到)

用户是通过什么工具来请求的,(因为我用的Google浏览器,所以显示的是Chrome

Referer:https://www.zhihu.com/people/pa-chong-21/activities(爬虫会用到)

是通过哪个页面到当前页面的(也就是上一个页面是什么?当前截图里面没有)

举个例子,当我是通过百度搜索页面点到当前页面的,那么Referer就是百度搜索页

If-Modified-Since:Wed, 15 Feb 2017 09:14:13 GMT
If-None-Match:W/"58a41be5-190aa"
Last-Modified:Wed, 15 Feb 2017 09:14:13 GMT
ETag:"58a41be5-190aa"

这4个一般静态页面会用到 If-Modified-Since,If-None-Match
这两个是请求头,ETag,Last-Modified是返回头(服务器返回的)

如果If-Modified-Since的值和Last-Modified相等 则表明当前请求的内容没有变动,服务器返回 Status Code:304 Not Modified
If-None-MatchETag 同理

总结

看完本篇文章后,你应该要

  • 大概了解什么是HTTP协议

  • HTTP常见请求方法有哪几种?

  • HTTP常见状态码有哪些?

  • HTTP请求头中,大概了解Accept,Cookie,User-Agent,Referer是干啥的?


最后的最后,收藏的大哥们,能帮忙点个赞么~

爬虫入门到精通-HTTP协议的讲解相关推荐

  1. 爬虫模拟登陆手机验证码_爬虫入门到精通-headers的详细讲解(模拟登录知乎)...

    本文章属于爬虫入门到精通系统教程第七讲 直接开始案例吧. 本次我们实现如何模拟登陆知乎. 1.抓包 1. 首先打开知乎登录页 知乎 - 与世界分享你的知识.经验和见解 注意打开开发者工具后点击&quo ...

  2. python中headers的作用_爬虫入门到精通-headers的详细讲解(模拟登录知乎)

    直接开始案例吧. 本次我们实现如何模拟登陆知乎. 1.抓包 注意打开开发者工具后点击"preserve log",密码记得故意输入错误,然后点击登录 我们很简单的就找到了 我们需要 ...

  3. 爬虫的步骤解析内容xpath介绍_爬虫入门到精通-网页的解析(xpath)

    在爬虫入门到精通第五讲中,我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容. xpath的解释 XPath即为XML路径语言(XML Path Lan ...

  4. 最新崔庆才Python3爬虫入门到精通课程视频 附软件+源码+资料

    课程目录: 第一阶段: 环境配置 第1课:Python3+Pip环境配置 第2课:MongoDB环境配置 第3课:Redis环境配置 第4课:MySQL的安装 第5课:Python多版本共存配置 第6 ...

  5. wireshark从入门到精通(协议排错安全篇)4

    ARP协议数据包的分析  ARP也就是地址解析协议,我们要访问外网,不知道对方的mac地址就需要arp来进行请求然后知道后就可以请求网关来进行通信. 复制代码 地址解析协议,即ARP(Address ...

  6. python学习详解_Python学习入门到精通:Python列表讲解

    列表导读 从列表开始,我们将陆续学习元组,集合,字典这4中容器类型数据.容器类型数据,只是望文生义,你大概能够猜测出这4种数据类型的作用,他们如同容器一样,可以存储int,float,bool,str ...

  7. wireshark从入门到精通(协议排错安全篇)7

    上一节说了TCP可能就有童鞋问如果我发的数据分片完怎么组合,都发乱了那我数据不恢复不了吗?  这里我就要说一下我们的seq序列号的作用了,通过他进行排序,也就是TCP的有序传输.  我们还有一点就是要 ...

  8. wireshark从入门到精通(协议排错安全篇)3

        统计-IO图表  是不是类似服务器的一些流量分析,他就是来分析数据流量吞吐的一个直观表,我们可以鼠标拖动和滚轮放大,通过他明显对比出我们服务器发包是否受阻等情况.      分析--专家信息  ...

  9. Spring Data JPA 从入门到精通~默认数据源的讲解

    默认数据源 spring.datasource.driver-class-name=com.mysql.jdbc.Driver spring.datasource.url=jdbc:mysql://1 ...

最新文章

  1. linux shell 执行 几种方式区别 bash source .
  2. 文件、格式-【Cocos2D-X 】初窥门径(10)解决中文乱码-by小雨
  3. MySQL服务器端客户端常见错误
  4. Codeforces Round #643 (Div. 2)(A, B, C, D, E)
  5. 性能高1倍,价格低3/4!数据库实时同步新选择!
  6. 计算机在生物学研究领域的认识,阮晓钢——北京工业大学——主要研究领域涉及:控制科学与工程,人工智能与认知科学,机器人学与机器人技术,计算机应用技术,生物医学工程与生物信息学。...
  7. python程序员工作时间_黑马程序员:Python编程之时间和日期模块
  8. MT艾宾浩斯背单词(附带主程序)
  9. Linux下安装和卸载jdk步骤详述
  10. Make a Crystal UVA - 11014 (容斥定理)
  11. html调用摄像头ios,html5调用摄像头
  12. word xml 上下标
  13. Python爬取新笔趣阁小说
  14. 计算机中丢失galaxy2d.dll,galaxy2d.dll
  15. Excel根据单元格内容分类并插入空行的方法
  16. 【lc3】汇编实现I/O中断
  17. 最优停止找停车位问题的最简单解释
  18. gitlab+Jenkins自动化搭建部署
  19. 解决md文件中本地图片链接失效的方法
  20. Ubuntu和windows系统下安装odoo16 社区版和企业版附带安装视频

热门文章

  1. 大数据分布式集群搭建(4)
  2. LeetCode-笔记-525. 连续数组
  3. Spring Cloud Alibaba 一致性挑战:微服务架构下的数据一致性解决方案
  4. mysql 5.7 安装错误提示总结
  5. linux怎么允许远程root登录
  6. 新手入门必看:使用Selenium进行自动化测试
  7. Jmeter接口测试踩过的坑,快来看鸭~
  8. python excel行数_使用python计算excel中的行数
  9. php memcached 扩展安装目录,php安装memcached扩展
  10. python循环队列_关于循环队列的一些讲解