Python爬虫底层知识简介 - AI小白进阶之路
目录
- 一、通讯协议
- 1.1 端口
- 1.2 通讯协议
- 二、网络模型
- 2.1 网络模型结构
- 2.2 HTTPS是什么
- 2.3 SSL怎么理解
- 三、爬虫介绍
- 3.1 什么是爬虫
- 3.2 为什么要爬虫
- 3.3 企业获取数据的方式
- 3.4 Python做爬虫的优势
- 3.5 爬虫的分类
一、通讯协议
1.1 端口
- 我们要进行数据通讯一般要经过三步:
- 找到对方IP。
- 数据要发送到指定的应用程序上。为了标识这些应用程序,所以给这些网络应用程序都用数字进行了标识。为了方便称呼这个数字,我们称之为 端口。这里的端口我们通常叫做逻辑端口。
- 定义通讯规则。这个通讯规则我们一般称之为协议。
1.2 通讯协议
- 国际组织定义了通用的通讯协议 TCP/IP协议。
- 所谓协议就是指计算机通信网络中计算机之间进行通信所必须共同遵守的规定和规则。
- HTTP又叫做超文本传输协议(是一种通讯协议)。它的端口是80。
- 我们随便打开一个网址用的https的url都是默认端口为80,一般会省略不展示,大家统一的80端口。
二、网络模型
2.1 网络模型结构
- 数据传输的网络的模型和数据流动示意,osi模型
- 后期更新了新的参考模型TCP/IP参考模型
在TCP/IP模型中,我们用到的爬虫HTTP协议就在应用层。
2.2 HTTPS是什么
- https = http + ssl,顾名思义,https是在http的基础上加上了SSL保护壳,信息的加密过程就是在SSL中完成的。
- HTTPS是以安全为目标的HTTP通道,简单讲是HTTP安全版。即HTTP下加入SSL层,HTTPS的安全基础上SSL。
2.3 SSL怎么理解
- SSL也是一个协议,主要用于web的安全传输协议。
三、爬虫介绍
3.1 什么是爬虫
- 简单一句话就是代替人去模拟浏览器进行网页操作
3.2 为什么要爬虫
- 为其它程序提供数据源。如搜索引擎(百度、谷歌)、做数据分析、数据挖掘、大数据、人工智能等。
3.3 企业获取数据的方式
- 公司自有的平台数据
- 向第三方平台购买数据(推荐第三方台:百度指数、数据堂
- 爬虫爬取的数据
3.4 Python做爬虫的优势
- PHP:对多线程、异步支持不太好
- Java:代码量大,代码笨重
- C/C++:代码量大,难以编写
- Python:支持模块多、代码简洁、第三方库多、开发效率高(scrapy框架)
3.5 爬虫的分类
- 通用网络爬虫,如百度、谷歌、雅虎。
- 聚焦式网络爬虫,根据既定目标有选择的抓取某一特定主题内容。
- 增量式网络爬虫,指对下载页面采取增量式的更新和只爬取新产生的或者已经发生变化的网页爬虫。
- 深层次网络爬虫,指那些大部分内容不能通过静态链接获取的,隐藏在搜索表单后的,只有用户提交了一些关键词才能获的web页面,如用户注册登录才能访问的页面。
Python爬虫底层知识简介 - AI小白进阶之路相关推荐
- class参数传入 python_小白学 Python 爬虫(20):Xpath 进阶
人生苦短,我用 Python 如果我的文章对您有帮助,请关注支持下作者的公众号:极客挖掘机,您的关注,是对小编坚持原创的最大鼓励:) 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Py ...
- 小白学 Python 爬虫(20):Xpath 进阶
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- python requests_小白学 Python 爬虫(18):Requests 进阶操作
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- python爬虫精选11集(selenium进阶总结【selenium的cookies处理、ip代理、useragent替换】)
python爬虫精选11集(selenium进阶总结) 一.selenium的介绍 1. selenium运行效果展示 1.1 chrome浏览器的运行效果 1.2 phantomjs无界面浏览器的运 ...
- python爬虫——基础知识
python爬虫--基础知识 一.网页基础知识 二.爬虫的思路 1.HTML文档(超文本) 三.ROBOTS协议 四.浏览器发送HTTP请求的过程 1.http请求过程 2.请求 五.SSL连接错误 ...
- Python爬虫核心知识-第二章:2.2 爬虫urllib.parse模块
Python爬虫核心知识 第二章:2.2 爬虫urllib.parse模块 2.2 爬虫urllib.parse模块 Python中的urllib.parse模块中,提供了很多用来解析和重组URL的函 ...
- Python爬虫核心知识-序章:课程前导-爬虫的相关法律法规
Python爬虫核心知识 序章:课程前导-爬虫的相关法律法规 爬虫程序是一种技术产物,爬虫代码本身并未违反法律.但程序运行过程中有可能对他人经营的网站造成 破坏,爬取的数据有可能涉及隐私或机密,数据的 ...
- python爬虫用途-Python爬虫入门知识:解析数据篇
首先,让我们回顾一下入门Python爬虫的四个步骤吧: 而解析数据,其用途就是在爬虫过程中将服务器返回的HTML源代码转换为我们能读懂的格式.那么,接下来就正式进入到解析数据篇的内容啦. Part 1 ...
- python爬虫基础知识
今天学习了爬虫原理,网络通信基于URL统一资源定位器,这就是最简单最原始的爬虫. 欢迎加微信18599911861有更多python爬虫教程视频资源分享. 网络爬虫(又被称为网页蜘蛛,网络机器人,在F ...
最新文章
- markdown python整段话_(7)python少儿编程之基础语法(二)
- 对话框绘制完成消息_Word小技巧-一分钟教会你快速绘制组织架构图
- [译] ROS C++ 代码规范
- 从Java角度看Golang
- java中的排序方法,Java中的排序比较方式:自然排序和比较器排序
- Jquery getJSON方法分析(二)
- Python_study_day_1_while_if
- java开发传统项目_【笔记】Eclipse非传统方式搭建Java Web项目(开发中的项目....)...
- linux uuid挂载磁盘_Linux磁盘设备磁盘设备的UUID标识代码(sda,sdb,sdc…)变化的解决办法...
- inode客户端连接成功上不了网_Inode客户端上网常见问题及解决办法
- ryuyan 方差分析_R语言之方差分析篇
- linux蓝牙安装程序,Linux 端蓝牙调试工具
- 甘超波:NLP表象系统
- 机器学习之线性回归 Linear Regression(三)scikit-learn算法库
- 23岁需要做到的事情
- 漫谈核心能力(2) -- 知错能改,善莫大焉
- 为什么iPhone 12 中国版不支持5G毫米波?
- 使用freemarker导出Word文档(含图片)
- FER基于卷积神经网络: 处理少量数据和训练样本订单FER with CNN:Coping with few data and the training sample order
- Linux系统可以显示文件名,Linux系统如何显示中文目录和文件名
热门文章
- 服务无法注册到注册中心解决
- 基于Springboot+vue实现前后端分离二手图书交易
- MAE TransMix
- mongo按季度统计_2020年第一季度|我国DDoS攻击资源季度分析报告
- 机器指令和微指令的关系
- class torch.optim.lr_scheduler.StepLR
- 【C++】set/multiset/map/multimap
- 实验项目名称:微波技术与天线CST仿真实验
- heidisql修改mysql密码_读取HeidiSQL 配置文件中的密码
- 电脑文件误删除如何恢复?可以快速找回