今天我们来学爬虫,这个系列预计会出11期

爬虫原理:

------------------什么是爬虫?-----------------

请求网站并提取数据的自动化程序

------------------爬虫的分类 --------------------

  1. 通用网络爬虫(全网爬取,搜索引擎,爬行的范围和速度是巨大的,但速度慢,有用和无用的数据需要很多的存储空间,而且需要很多只爬虫一起爬)
  2. 聚焦网络爬虫(我们平时要写的爬虫,有选择性的去爬取,不会获取无用的数据)

-------什么是requests和response?-------

他们两个也叫HTTP requests和HTTP response

(1)浏览器发送消息给某个网址所在的服务器,这个过程就叫做HTTP requests

比如你在上方的网址区输入网址,它就会给该网址所在的服务区发送HTTP Requests

(2)服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做HTTP Response.

比如你写出了某个网址,浏览器把请求上传到了那个网址的服务器中,服务器会传回给你一些HTML的代码,就构造了你想看到的网页

(3)浏览器收到服务器的Response信息后, 会对信息进行相应处理,然后展示

------------Requests中包含什么?-------------

请求方式

GET: 单纯地从服务器里提取数据,请求的时候不带任何数据和参数。
POST: 发送的请求当中携带一些数据,就像登陆,你需要填账号密码。

请求URL

在发出的请求中,总会包含URL,这样才能知道请求到哪个服务器去,服务器也会根据你发的URL来给你提供相应的服务。

请求头

User-Agent: 用来标识请求是从哪里来的,如果是从浏览器发起的请求,User-Agent会标示浏览器的信息。如果是爬虫发起的请求,User-Agent会标识编程语言的名字。

Host: 主机

Cookies: 用来存储用户的信息,比如你登录就会存储登录的信息。下次要是再去请求目标网址,由于你cookies里已经有登录的信息,就不用再去登陆。

请求体

存储发出请求时需要额外携带的数据。因为他是存储携带数据,所以当get请求的时候,请求体是空的。

------------Response中包含什么?------------

响应状态

200 代表 成功
301 代表 网址被移到其他地,要跳转
404 代表 找不到页面
502 代表 服务器错误
当我们向服务器发起请求的时候,第一件事就是要判断响应状态

响应头

它里面有内容类型,内容长度,还会帮我们设置cookie值

响应体

我们向网址发起请求时,希望得到网址背后的数据,就是包含在响应体当中。
有HTML的框架呀,有图片呀,或者还有视频。

例子:

一般来说每个浏览器都会有一些检查工具,就比如我是chrome浏览器,只要在你想要检查的页面右键就可以了。

Elements选项卡

Elements选项卡里面包含的是此网页的HTML代码文档右边跟着的styles是它的样式表。我们看到的那些网页都是HTML代码结合它的样式表呈现出来的。不懂也没关系,待会儿会讲
如果我想知道某个数据存在的位置,选项卡的左上角就会出现这样一个标志。

点开它,你的鼠标指到哪里,那里的代码就会显现给你

零基础Python爬虫教程和实战(一)相关推荐

  1. 慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述

    原标题:零基础Python爬虫入门学习一之综述 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...

  2. python经典教程_零基础 Python爬虫经典实战教程

    最近Python爬虫比较火,看到网上分享源码的比较多,很少有教程帖子,为了帮助新人和对爬虫比较感兴趣的朋友,所以想到写一些比较详细教程帖子!大家共同学习! 下载工具,安装对应系统的版本,下面以wind ...

  3. 小孩儿都能学会的零基础Python学习教程

    本套python学习路线从零开始,让你⼀步步掌握Python开发的各项相关技能,最终达到企业对Python开发.后端开发.爬⾍开发.数据分析等职位的要求. 内容很全面,从python基础知识到最后的项 ...

  4. 零基础python爬虫_零基础写python爬虫之爬虫编写全记录

    先来说一下我们学校的网站: http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html 查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是 ...

  5. 零基础python嵌入式开发_零基础Python入门教程

    第01课 python基础之python介绍 课时1python的职业方向和工资 试听 00 : 15 : 54 开始学习 课时2环境的安装 试听 00 : 14 : 16 开始学习 课时3基础班课程 ...

  6. python爬电影_零基础Python爬虫实现(爬取最新电影排行)

    原博文 2018-02-26 15:29 − 提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构 要爬的部分,在 ...

  7. 零基础python爬虫基础之王者荣耀图片下载(超级简单)

    requests与PyQuery requests 请求获取数据 PyQuery PyQuery是一个类似于jQuery的解析网页工具,使用lxml操作xml和html文档,它的语法和jQuery很像 ...

  8. 零基础python机器学习笔记--代码实战第二天数据分析

    首先读取数据 #读取红酒数据 target_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-qua ...

  9. python爬取电影网站存储于数据库_Python零基础爬虫教程(实战案例爬取电影网站资源链接)...

    前言 好像没法添加链接,文中的链接只能复制到浏览器查看了 这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/de ...

最新文章

  1. 为什么可以说Java语言是准动态语言?
  2. opencv极坐标转换成直角坐标_媲美 PS,用 Python 制作酷炫极坐标全景图
  3. C语言设计新思维分享
  4. 在java中使用JMH(Java Microbenchmark Harness)做性能测试
  5. php查询socket数据包头,php 查询数组值php中关于socket的系列函数总结
  6. pymysql安装_第八章 nova组件安装2
  7. ASP.NET Core 3.0中使用动态控制器路由
  8. 点击回退按钮刷新页面
  9. 第一节 Memcached分布式缓存入门
  10. 【CVPR 2020】Learning RoI Transformer for Oriented Object Detection in Aerial Images
  11. 详解Domino服务器的安装
  12. 【前端基础】浏览器对象
  13. 51单片机之DS18B20
  14. 周杰伦新歌刷爆朋友圈的背后 付费音乐的春天终于来了?
  15. office相关文件转pdf的几种方式
  16. 大数据分析和人工智能科普
  17. Java、JSP外卖订餐系统
  18. 大道至简:软件工程实践者的思想读后感
  19. 信息学奥赛一本通答案dj空格分隔输出1026
  20. 我是如何打造出自己私有云存储的

热门文章

  1. 洛谷p2504 HAOI2006 聪明的猴子
  2. 使用selenium等待网页加载完成,lxml解析网页,利用urllib爬取图片
  3. 腾讯地图JavaScript API GL 版标记及输入经纬度反向定位(vue.js实现)
  4. 六级翻译——第三节 中国经济
  5. “淘宝商城”更名“天猫”
  6. Android studio处理打签名包时报字符资源is not translated的问题
  7. iPhone必崩溃bug曝光
  8. 前端世界国家下拉选择栏数据
  9. s:form action=login...与s:form action = login.action.的区别
  10. Python毫秒准换为秒