【第一章】爬虫的介绍
1.爬虫的实际例子:
- 搜索引擎(百度、谷歌等)
- 伯乐在线
- 慧慧购物助手
2.什么是爬虫:爬虫是一个模拟人类请求网站的行为的程序,自动请求网页,获取数据,清洗数据,保存数据库。
3.通用爬虫和聚焦爬虫
- 通用爬虫:就是讲互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
- 聚焦爬虫:是一种面向需求的网络爬虫,会对需求进行筛选,不是全部内容下载下来。
4.准备工具:
- python 3.x
- pycharm
- 虚拟环境
5.http协议和https协议:
HTTP:协议用的是80端口
HTTPs:协议用的是443端口,是HTTP协议的加密版本
6.URL详解:
7.常用的请求方法:
- get
- post
8.请求头常见的参数:
9.常见的状态码:
- 200:状态正常
- 301:永久重定向,例如www.jingdong.com重定向到www.jd.com
- 302:临时重定向
- 400:页面不存在
- 403:权限不够
- 500:服务器代码出现问题
10.抓包工具
- Chrome浏览器
【第一章】爬虫的介绍相关推荐
- 编写高性能 .NET 代码 第一章:工具介绍 -- Performance Counters(性能计数器)
Performance Counters(性能计数器) 性能计数器是监视应用程序和系统性能的最简单的方法之一.它有几十个类别数百个计数器在,包括一些.net特有的计数器.要访问这些可以通过系统自带的 ...
- 第一章 Caché 对象介绍
文章目录 第一章 Caché 对象介绍 Caché 对象体系结构 类定义和类字典 创建类定义 类字典 Caché类库 开发工具 Caché Studio SQL-Based Development X ...
- R语言学习笔记——入门篇:第一章-R语言介绍
R语言 R语言学习笔记--入门篇:第一章-R语言介绍 文章目录 R语言 一.R语言简介 1.1.R语言的应用方向 1.2.R语言的特点 二.R软件的安装 2.1.Windows/Mac 2.2.Lin ...
- The Django Book 第一章【Django介绍】
第一章:Django介绍 出处: http://www.javaeye.com/wiki/Django-book/737-%E7%BF%BB%E8%AF%91www.djangobook.com%E4 ...
- FCF中文指南-第一章--FusionCharts Free介绍
第一章--FusionCharts Free介绍 FusionCharts是InfoSoft Global公司的一个产品,InfoSoft Global 公司是专业的Flash图形方案提供商,他们还有 ...
- 《现代密码学》第一章——经典密码学介绍
第一章经典密码学介绍 1.1密码学和现代密码学 a.现代密码学与古典密码学的区别: 1.2对称密钥加密的基本设置 a. b.加密的语法 密钥产生算法Gen:一种概率算法 加密算法Enc:输入密钥k,明 ...
- 第一章 爬虫(认识网络爬虫)
第一章 认识网络爬虫 1.1 什么是网络爬虫 网络爬虫: 一种按规则,自动请求网站并提取网页数据的程序或脚本 网络爬虫分类(按照系统结构和技术划分): 1.通用网络爬虫 2.聚焦网络爬虫 3 ...
- OSG三维渲染引擎编程学习之五:“第一章:OSG介绍” 之 “1.5 OSG模块”
目录 第一章 OSG介绍 1.5 OSG模块 1.5.1 核心库(Core) 1.5.2 工具库(NodeKit) 1.5.3 插件库(Plugins)
- 《Gans in Action》第一章 对抗神经网络介绍
此为<Gans in Action>(对抗神经网络实战)第一章读书笔记 Chapter 1. Introduction to GANs 对抗神经网络介绍 This chapter cove ...
- OSG三维渲染引擎编程学习之一:“第一章:OSG介绍” 之 “1.1 OSG简介”
目录 第一章 OSG介绍 1.1 OSG简介 第一章 OSG介绍 通过本章的学习,全面了解OSG的诞生.历史.发展及模块组成.通过获取.安装.编译第三方库及OSG,建立基于OSG的基础编程环境.为便于 ...
最新文章
- 微信小程序把繁琐的判断用Js简单的解决
- Windows内核启动开关/3GB和win10下boot.ini文件问题
- android自定义图片文本,Android 实现文字与图片的混排
- [转]50个c/c++源代码网站
- 【Linux】 诊断工具-strace
- 在项目中使用fastreport_如何在项目管理中使用里程碑
- 你必须知道的CSS盒模型,面试建议
- Linux环境下创建运行.java文件
- php5.6 xdebug 配置,php5.5+apache2.4+mysql5.6+xdebug配置
- springmvc initial初始化
- 贺利坚老师汇编课程55笔记:带进位加法指令ADC
- 肝毒净-道格拉斯实验室
- mysql passwor authen_Navicat连接虚拟机的MySQL时 提示“Password authentication failed”
- Programming Ruby 读书笔记(五)
- android 分享文件功能实现
- 遗传算法(Genetic Algorithm)过程全面解析
- DM8 2节点DSC+DW搭建及故障测试
- ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1) java.sql.BatchUpdateException: Duplicate
- JAVA导入大量数据的Excel,如何分块读取并避免内存溢出?
- 2021年4款好用的音乐编曲软件推荐