HTTP请求

1.首先需要了解一下http请求,当用户在地址栏中输入网址,发送网络请求的过程是什么?
可以参考我之前学习的时候转载的一篇文章一次完整的HTTP事务过程–超详细

2.还需要了解一下http的请求方式,有兴趣的同学可以去查一下http的八种请求方法,这里呢主要说下get请求和post请求,这两种在以后学习中会用到的比较多。

get请求:GET方法用于使用给定的URI从给定服务器中检索信息,即从指定资源中请求数据。我们输入网址访问网站一般就是get请求。[做运维的小年轻]使用GET方法的请求应该只是检索数据,并且不应对数据产生其他影响。
优点:比较便捷
缺点:由于是明文传输,所以安全性比较低,另外参数长度有限制。

post请求:POST请求通常是使用来提交HTML的表单,表单中的数据传输到服务器,由服务器对这些数据处理。我们平常执行登录操作的那一下基本上都是post请求。
关于get请求和post请求区别优缺点这里推荐一篇博文:http GET 和 POST 请求的优缺点、区别以及误区

下面说一下Headers中的Request Headers(请求头信息),

Accept:指定客户端能够接收的内容类型,图中text/html表示要请求返回文本格式的数据
Accept-Encoding:指定浏览器可以支持的web服务器返回内容压缩编码类型,图中gzip表示支持gzip格式的压缩文件
Accept-Language:浏览器可接受的语言 图中 zh-CN表示接受中文
Connection:表示是否需要持久连接。(HTTP 1.1默认进行持久连接)图中keep-alive意为保持长链接
Cookie:是服务器发送到浏览器并保存在本地的一小块数据,存储在header中,它会在浏览器下次向同一服务器再发起请求时被携带并发送到服务器上,通常,它用于告知服务端两个请求是否来自同一浏览器,如保持用户的登录状态。
Host:指定请求的服务器的域名和端口号,图中是www.baidu.com也就是我在地址栏中请求的网址
User-Agent:包含的是发出请求的用户信息,客户机的软件环境浏览器类型等

Response Header 和Request Headers对应,如下图

了解完这些呢,就来看下爬虫吧

爬虫

爬虫通俗来说,就是使用代码模拟用户,批量发送网络请求,批量的获取数据

爬虫的的分类

1.通用爬虫:搜索引擎的爬虫
优势:开放性很好,速度比较快
劣势:目标不明确,举个例子哈,例如我在百度搜索图片,搜索结果如下图,我想要的是图片,但是看下图红色方框所圈的内容并不是我们所要找的图片资源,这就是我所说[做运维的小年轻]的目标不明确,导致的结果呢就是返回的很多内容并不是用户所需要的。

2.聚焦爬虫:全称聚焦网络爬虫,又称为主题网络爬虫
优点:目标明确,对用户的需求非常精准,返回内容很固定,比如我就请求一张图片,那么就返回一张图片。

关于爬虫的分类其实在以后越来越深入的学习中,会自然而然的理解,现在只需有个大概了解就行了关于网络爬虫分类日百度百科中讲的比较详细,点击传送门去了解。

Python爬虫==入门基础概念相关推荐

  1. Python爬虫入门基础

    文章目录 python基础篇 前言 一.Python开发环境的搭建 (1)Python的安装与运行 (2)Python开发环境 二.Python的基本知识.数据类型 (1)整数与浮点数 (2)字符串. ...

  2. python爬虫入门基础知识_【PYTHON】【爬虫】关于python爬虫的一些基础知识

    基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器 ...

  3. python爬虫入门代码-Python爬虫入门

    原标题:python爬虫入门 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端 ...

  4. python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程

    如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...

  5. python网络爬虫的基本步骤-黑客基础 编写Python爬虫入门步骤

    原标题:黑客基础 编写Python爬虫入门步骤 信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯 带你走进黑客 ...

  6. Python爬虫入门(2):爬虫基础了解

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  7. 转 Python爬虫入门二之爬虫基础了解

    静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程 在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以 ...

  8. python爬虫步骤-黑客基础 编写Python爬虫入门步骤

    原标题:黑客基础 编写Python爬虫入门步骤 信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯 带你走进黑客 ...

  9. Python爬虫入门实战2:获取CSDN个人博客文章基础信息

    ☞ ░ 老猿Python博文目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036 ░ 一.引言 当爬取博文内容时,有时需要进行 ...

最新文章

  1. linux zabbix_agentd命令 监控服务器参数 简介
  2. 【错误记录】Android 分区存储下的 SD 卡应用专属外部存储空间目录访问 ( 需手动创建应用专属外部存储空间目录 )
  3. 转: Vim快捷键分类
  4. android方块密码输入框,Android仿微信/支付宝的方块密码输入框
  5. C# 实现软件自动更新升级程序
  6. 蔡高厅老师 - 高等数学阅读笔记 - 02 - 极限(06 、07、08、09、10、11、12)
  7. PAT乙:1022 D进制的A+B
  8. php7 viewmodel,ViewModel浅析
  9. CentOS7.3安装Nginx
  10. 【网络基础】《TCP/IP详解》学习笔记2
  11. 计算机专业英语第五章ppt,计算机专业英语课件5.ppt
  12. 易筋SpringBoot 2.1 | 第廿篇:SpringBoot的复杂JPA以及源码解析
  13. 基于asp.net317员工出差企业差旅管理系统
  14. STM32F103C8T6 硬件SPI+DMA 控制WS2811
  15. Springboot图片上传 百度ocr文字识别提取
  16. python模拟支付宝扫码登录_Python爬虫模拟登录支付宝并获取订单信息
  17. msdos gpt
  18. IIS5.1完整安装包使用指南(详解版)
  19. 区块链将会怎样颠覆Google、Amazon、Facebook和Apple?
  20. 0000-0-1-C语言可以做什么C语言可以干啥C++语言可以做什么C++语言可以干啥C语言就业前景C++就业前景

热门文章

  1. VMWare虚拟机下为Ubuntu 12.04.1配置静态IP(NAT连接方式)
  2. HTML 各种鼠标手势
  3. Linux Versus Windows, Ubuntu/Mint V XP/Vista/7
  4. 苹果应用ipa图片提取
  5. php使用strstr函数 ,判断字符串A中是否含有字符串B
  6. Windows 32位程序在64位操作系统下运行
  7. 使用Elasticsearch+filebeat+logstach+kibana构建日志服务平台
  8. usessl mysql_mysql数据库连接useSSL=true
  9. Java---先设计一个Moveable可移动接口,然后分别设计 3 个类,即汽车Car、轮船Ship、飞机Aircraft来实现该接口,最后设计一个应用程序来使用它们。
  10. mysql list列表批量更新数据,Mybatis传入List实现批量更新的示例代码