【Python 爬虫】 2、HTTP基本原理
HTTP基本原理
基本概念
URL
URL(Uniform Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简介的表示,是互联网上标准资源的地址。互联网上每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
hypertext
hypertext(超文本),浏览器里面看到的网页就是超文本解析而成,其网页源代码是一系列的html代码,如“img”表示图片,“p”指定段落等。
Http基本原理
http和https:访问资源需要的协议类型,还有其他的类型,比如ftp,sftp,smb等;
http:Hyper text transfer protocol,超文本传输协议,网络传输超文本数据到本地浏览器的传送协议,保证高效而准确的传送超文本文档;
https:Hyper text transfer protocol over secure socket layer,以安全为目标的http通道,http下加入ssl层。作用是建立一个安全通道来保证数据传输的安全,确认网站的真实性;
Http请求过程
浏览器中输入url后,浏览器向网站所在服务器发送一个请求,网站服务器接收请求,并对这个请求进行处理和解析,然后返回对应的响应,传回给浏览器,再通过浏览器解析出来。
请求:包括四部分内容
- 请求的网站(request url)
- 请求的方法(request method)
- 请求头(request header):用来说明服务器要使用的附加信息,比较重要的信息有cookie和user-agent。
- 请求体(request body):一般承载的内容是post请求中的表单数据,对于get请求,请求体为空。
请求的方法主要分为get和post。
get请求:
请求中的参数包含在url里面;
请求提交的数据最多只有1024字节(长度限制);
百度中输入关键字,其中wd表示要搜索的关键字
post请求:
表单提交时候发起,比如用户登录功能;
数据以表单的形式传输,不会体现在url中;
请求提交的数据没有大小限制;
数据传输更安全(因为参数不会体现在url中,比如银行卡账户和密码);
【Python 爬虫】 2、HTTP基本原理相关推荐
- Python爬虫的基本原理
我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛.把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息.可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛 ...
- 【浅谈爬虫】一名合格的Python爬虫工程师必须具备技能—具体了解四大Python爬虫分类以及爬虫基本原理实现
一.网络爬虫概述 网络爬虫(又被称作为网络蜘蛛.网络机器人,在某社区中经常被称为网页追逐者),可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息,通过Python可以很轻松地编写爬虫程序或 ...
- python爬虫的原理以及步骤-Python-爬虫的基本原理
什么是爬虫 爬虫就是请求网站并提取数据的自动化程序.其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,也就是发送一个Reque ...
- python爬虫的基本原理以及scrapy框架的使用
正则表达式基础 正则表达式用于处理字符串,拥有自己独立的语法以及一个独立的处理引擎. 不同提供正则表达式的语言里正则表达式的语法都式一样. . 和 * + . 匹配任意一个字符 *匹配0或多次前面出现 ...
- 玩转 Python 爬虫,需要先知道这些
作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...
- 一个月入门Python爬虫,轻松爬取大规模数据
如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...
- python爬虫入门教程--快速理解HTTP协议(一)
http协议是互联网里面最重要,最基础的协议之一,我们的爬虫需要经常和http协议打交道.下面这篇文章主要给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料,文中介绍的非常详细,需要 ...
- Python爬虫9大入门学习知识点
1.掌握Python编程能基础 想要学习爬虫,首先要充分掌握Python编程技术相关的基础知识.爬虫其实就是遵循一定的规则获取数据的过程,所以在学习Python知识的过程中一定要重点学习其中的数据类型 ...
- python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?
原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...
- python爬虫 小白轻松从0到1_如何从0到1,学习Python的流程【小白入门】
Hello World! 写下Hello World是你在学任何编程语言时做的第一件事,除了让你对第一次代码运行感到兴奋,它也会帮你检测目前运行环境是否正常. 我们第一个运行的程序! 重点 可读性-- ...
最新文章
- 【经验分享】鹅厂机器学习岗暑期实习面经总结
- trident API指南
- PHP7 下安装 memcache 和 memcached 扩展
- Flask开发成语接龙游戏,闲来无事手机玩玩自己写的游戏吧!
- redhat linux启动mysql_redhatlinux下mysql启动不了
- android wifi是否可用,Android检测网络连接是否可用
- 最后一个页面:构建电影详情页面
- 在线教学、视频会议 Webus Fox(1)文本、语音、视频聊天及电子白板基本用法...
- 一、部署虚拟环境来安装Linux系统
- 美联储加息已成“政治正确” 美元涨势难以阻挡?
- 面向对象编程 — 为什么要引入抽象概念?
- 在Google工作的十年,也是我开心的十年
- XTU,C语言,平衡三进制2
- 软件测试自学毛笔字纹身,ps纹身教程_photoshop给人物添加纹身效果实例制作教程...
- Git Please tell me who you are
- 【漫画,Java微服务实践百度网盘
- 测站坐标系、地心非惯性系、经纬高互转
- Python代码实现尼姆游戏聪明模式
- word转化为PDF
- 刀片服务器系统B16000报价,产品技术-H3C UniServer B16000服务器-新华三集团-H3C