Python爬虫底层知识简介 - AI小白进阶之路

一、通讯协议

1.1 端口

我们要进行数据通讯一般要经过三步：

找到对方IP。
数据要发送到指定的应用程序上。为了标识这些应用程序，所以给这些网络应用程序都用数字进行了标识。为了方便称呼这个数字，我们称之为端口。这里的端口我们通常叫做逻辑端口。
定义通讯规则。这个通讯规则我们一般称之为协议。

1.2 通讯协议

国际组织定义了通用的通讯协议 TCP/IP协议。
所谓协议就是指计算机通信网络中计算机之间进行通信所必须共同遵守的规定和规则。
HTTP又叫做超文本传输协议（是一种通讯协议）。它的端口是80。
我们随便打开一个网址用的https的url都是默认端口为80，一般会省略不展示，大家统一的80端口。

二、网络模型

2.1 网络模型结构

数据传输的网络的模型和数据流动示意，osi模型
后期更新了新的参考模型TCP/IP参考模型

在TCP/IP模型中，我们用到的爬虫HTTP协议就在应用层。

2.2 HTTPS是什么

https = http + ssl，顾名思义，https是在http的基础上加上了SSL保护壳，信息的加密过程就是在SSL中完成的。
HTTPS是以安全为目标的HTTP通道，简单讲是HTTP安全版。即HTTP下加入SSL层，HTTPS的安全基础上SSL。

2.3 SSL怎么理解

SSL也是一个协议，主要用于web的安全传输协议。

三、爬虫介绍

3.1 什么是爬虫

简单一句话就是代替人去模拟浏览器进行网页操作

3.2 为什么要爬虫

为其它程序提供数据源。如搜索引擎（百度、谷歌）、做数据分析、数据挖掘、大数据、人工智能等。

3.3 企业获取数据的方式

公司自有的平台数据
向第三方平台购买数据（推荐第三方台：百度指数、数据堂
爬虫爬取的数据

3.4 Python做爬虫的优势

PHP：对多线程、异步支持不太好
Java：代码量大，代码笨重
C/C++：代码量大，难以编写
Python：支持模块多、代码简洁、第三方库多、开发效率高（scrapy框架）

3.5 爬虫的分类

通用网络爬虫，如百度、谷歌、雅虎。
聚焦式网络爬虫，根据既定目标有选择的抓取某一特定主题内容。
增量式网络爬虫，指对下载页面采取增量式的更新和只爬取新产生的或者已经发生变化的网页爬虫。
深层次网络爬虫，指那些大部分内容不能通过静态链接获取的，隐藏在搜索表单后的，只有用户提交了一些关键词才能获的web页面，如用户注册登录才能访问的页面。

Python爬虫底层知识简介 - AI小白进阶之路相关推荐

class参数传入 python_小白学 Python 爬虫（20）：Xpath 进阶
人生苦短,我用 Python 如果我的文章对您有帮助,请关注支持下作者的公众号:极客挖掘机,您的关注,是对小编坚持原创的最大鼓励:) 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Py ...
小白学 Python 爬虫（20）：Xpath 进阶
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python requests_小白学 Python 爬虫（18）：Requests 进阶操作
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python爬虫精选11集（selenium进阶总结【selenium的cookies处理、ip代理、useragent替换】）
python爬虫精选11集(selenium进阶总结) 一.selenium的介绍 1. selenium运行效果展示 1.1 chrome浏览器的运行效果 1.2 phantomjs无界面浏览器的运 ...
python爬虫——基础知识
python爬虫--基础知识一.网页基础知识二.爬虫的思路 1.HTML文档(超文本) 三.ROBOTS协议四.浏览器发送HTTP请求的过程 1.http请求过程 2.请求五.SSL连接错误 ...
Python爬虫核心知识-第二章：2.2 爬虫urllib.parse模块
Python爬虫核心知识第二章:2.2 爬虫urllib.parse模块 2.2 爬虫urllib.parse模块 Python中的urllib.parse模块中,提供了很多用来解析和重组URL的函 ...
Python爬虫核心知识-序章：课程前导-爬虫的相关法律法规
Python爬虫核心知识序章:课程前导-爬虫的相关法律法规爬虫程序是一种技术产物,爬虫代码本身并未违反法律.但程序运行过程中有可能对他人经营的网站造成破坏,爬取的数据有可能涉及隐私或机密,数据的 ...
python爬虫用途-Python爬虫入门知识：解析数据篇
首先,让我们回顾一下入门Python爬虫的四个步骤吧: 而解析数据,其用途就是在爬虫过程中将服务器返回的HTML源代码转换为我们能读懂的格式.那么,接下来就正式进入到解析数据篇的内容啦. Part 1 ...
python爬虫基础知识
今天学习了爬虫原理,网络通信基于URL统一资源定位器,这就是最简单最原始的爬虫. 欢迎加微信18599911861有更多python爬虫教程视频资源分享. 网络爬虫(又被称为网页蜘蛛,网络机器人,在F ...

Python爬虫底层知识简介 - AI小白进阶之路

目录

一、通讯协议

1.1 端口

1.2 通讯协议

二、网络模型

2.1 网络模型结构

2.2 HTTPS是什么

2.3 SSL怎么理解

三、爬虫介绍

3.1 什么是爬虫

3.2 为什么要爬虫

3.3 企业获取数据的方式

3.4 Python做爬虫的优势

3.5 爬虫的分类

Python爬虫底层知识简介 - AI小白进阶之路相关推荐

最新文章

热门文章