本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:村雨遥

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )

网络爬虫

定义

通过模拟人请求网站的行为,然后能够自动请求网页并将数据抓取下来,再使用一定规则将其中我们所需要的有价值的数据提取出来存储,以便我们进行分析;

分类

通用爬虫

搜索引擎抓取系统的一个重要组成部分,主要将网页抓取下来,形成一个互联网的内容备份镜像;

聚焦爬虫

面向特定需求的网络爬虫,与通用爬虫的区别在于它能够在对网页抓取的同时对有价值的内容进行筛选,以满足我们对数据的需求;

http&https

http

HyperText Transfer Protocol,超文本传输协议,一种发布和接收HTML页面的方法,默认端口80;

https

Hypertext Transfer Protocol Secure,http协议的加密版,在http下加入SSL层,默认端口443;

URL

定义

Uniform Resource Locator,统一资源定位符;

组成:scheme://host:port/path/?query-string=xxx#anchor,除开英文字母、数字和部分符号外,其他都是%+16进制码进行编码;

scheme:访问协议,常为http、https及ftp;

host:主机/域名;

port:端口号;

path:查找路径;

query-string:查询字符串;

anchor:锚点,用于前端的页面定位;

常见请求方式

get

只需要从服务器获取数据,而不会对服务器资源产生影响时所使用的方式;

post

向服务器发送数据如登陆操作、上传文件等,会对服务器资源产生影响时所采用的方式;

常见请求头参数

Cookie

由之前服务器通过Set-Cookies设置的一个HTTP协议;

Referer

表示浏览器之前访问的页面,可以认为是之前访问页面的链接将浏览器带到当前页面;

User-Agent

浏览器的身份表示字符串;

响应状态码

urllib库

Python中常用的一个网络请求库,可用于模拟浏览器的行为,向指定服务器发送请求,同时也可以向服务器请求数据,然后将服务器返回的数据保存,这是Python3中自带的一个库,直接可以使用,不需要再安装;

总结

本文总结了学习Python爬虫所需要的一些基础知识,通过学习,你将对爬虫的定义以及一些网络知识有所了解,为接下来进一步学习Python爬虫做好准备;

python爬虫都需要什么手续_Python爬虫丨爬虫之前需要什么准备相关推荐

  1. python爬虫都需要什么手续_Python爬虫入门 | 3 爬虫必备Python知识

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  2. python爬网站的题库_Python零基础爬虫教程(实战案例爬取电影网站资源链接)

    前言 好像没法添加链接,文中的链接只能复制到浏览器查看了 这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/de ...

  3. __init__在python中的用法知乎_python使用selenium爬虫知乎的方法示例

    说起爬虫一般想到的情况是,使用 python 中都通过 requests 库获取网页内容,然后通过 beautifulSoup 进行筛选文档中的标签和内容.但是这样有个问题就是,容易被反扒机制所拦住. ...

  4. python爬取问卷星内容_python问卷星爬虫bug求助

    [TOC] 原bug MaxRetryError: HTTPConnectionPool(host='127.0.0.1', port=9659): Max retries exceeded with ...

  5. python爬虫代码实例源码_python 淘宝爬虫示例源码(抓取天猫数据)

    爬取淘宝 天猫网站数据# -*- coding: utf-8 -*- #!/usr/bin/env Python import dateTime import URLparse import sock ...

  6. python爬虫scrapy步骤mac系统_python scrapy简单爬虫记录(实现简单爬取知乎)

    DOWNLOADER_MIDDLEWARES ={#'tutorial.middlewares.MyCustomDownloaderMiddleware': 543, 'tutorial.middle ...

  7. python抓取百度地图数据_Python 百度地图爬虫 - 搜索数据采集

    class Hot_City_Coordinates(): """获取热门城市""" def __init__(self): self.he ...

  8. python开发都需要掌握哪些_Python开发学习需要掌握哪些技能?Python入门

    Python是近年来流行的编程语言.互联网市场中有很多种编程语言,但主流不过是java,C,php,python等.相对而言,python更适合零基础的朋友学习,python是相对易于学习的编程语言. ...

  9. python爬取新闻后提炼_Python爬虫开发的3大难题,别上了贼船才发现,水有多深...

    写爬虫,是一个非常考验综合实力的活儿.有时候,你轻而易举地就抓取到了想要的数据:有时候,你费尽心思却毫无所获. 好多Python爬虫的入门教程都是一行代码就把你骗上了"贼船",等上 ...

最新文章

  1. 图像数据读取及数据扩增方法
  2. pyqt tcp通信_实验十 基于PyQt界面的TCP通信程序(一).doc_学小易找答案
  3. 【每周CV论文推荐】 深度学习人脸检测入门必读文章
  4. 汇编语言等号=伪指令
  5. python 邮件报警
  6. Mysql数据库重命名
  7. ubuntu中一些软件的命令安装及设置
  8. 随便创建Servlet文件都出现,请求资源不可用的情况
  9. 【免费下载】2021年6月份热门报告盘点
  10. mysql 优化union_mysql优化 - MySQL中使用UNION进行两表合并,去重导致效率低下,请问如何优化?...
  11. 内蒙古电大计算机考试成绩查询成绩查询,中考查分系统
  12. 如何选出好用的仓库库存管理系统软件?看文章就知道了
  13. 安卓投屏软件_安卓投屏下载-安卓投屏下载v7.7.3
  14. 一名蒟蒻OIer(或许还算不上?)的NOI_Online2022的日录
  15. java类的使用方法小结_JavaPoet的使用指南小结
  16. 教育心理学有一句名言
  17. LNMP+coreseek(sphinx+mmseg3)搭建全文索引库_sgk
  18. 代码源每日一题-宝箱(贪心/思维)
  19. Qt中绘制五子棋棋盘
  20. 论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning

热门文章

  1. C语言 将若干个字符串按字母顺序由小到大输出
  2. 解决微雪2.13寸墨水屏分屏问题(1)
  3. CPDA : 数据分析师常见面试题
  4. 计算机网络笔记--1 计算机网络与网络应用(上)
  5. amcharts动态生成数据
  6. 1-17. Bootstrap 表单样式汇总
  7. C++模板元编程电子书下载
  8. VScode终止运行代码/程序/停止死循环
  9. 食品价格上涨谁是幕后“黑手”?
  10. 超级牛逼,用python制作全国身份证号验证及查询系统