python爬虫入门

2024-05-25 05:29:24

一、首先需要了解爬虫的原理

爬虫就是一个自动化数据采集工作，你只需要告诉它需要采取哪些数据，给它一个url，就可以自动的抓取数据。其背后的基本原理就是爬虫模拟浏览器向目标服务器发送http请求，然后目标服务器返回响应结果，爬虫客户端收到响应并从中提取数据，再进行数据清洗、数据存储工作。

二、爬虫的基本流程

爬虫的基本流程与访问浏览器类似，就是建立一个http请求，当用户输入一个url之后，点击确认，客户端会与服务器建立连接，服务器收到请求之后，会从数据库中拿到响应的数据并且封装为一个http响应，将响应的结果返回给浏览器，浏览器对响应的数据进行解析、提取、渲染并且最终展示为页面。

三、爬虫的场景分类

1、通用爬虫：抓取系统的重要组成部分，抓取的是一整个页面，这种爬虫的方式相对简单，只需要四个步骤，指定url、发送请求、获取数据、持久化存储。

    # 1、指定urlrequest_url = url# 2、发送请求responce = requests.get(url = request_url)# 3、获取数据responce_data  = responce.text# 4、持久化存储with open('./sogou.html','w',encoding='utf-8') as fp:fp.write(responce_data)print("爬虫结束")

2、聚焦爬虫：建立在通用爬虫的基础之上，抓取的是页面中的特定的局部页面。需要五个步骤，步骤与通用爬虫类似，只是在获取数据之后，需要对数据进行过滤、清洗。网页的数据解析器有:(1)、正则表达式。(2)、html.parser。(3)、beautifulsoup。(4)、lxml。

小结

这篇文章主要对爬虫入门进行介绍，我也是一个刚接触爬虫不久的小白，我希望和大家一起学习进步，之后我会将我学习路线和内容慢慢更新发表出来。

python爬虫入门相关推荐

python爬虫入门教程--优雅的HTTP库requests（二）
requests 实现了 HTTP 协议中绝大部分功能,它提供的功能包括 Keep-Alive.连接池.Cookie持久化.内容自动解压.HTTP代理.SSL认证等很多特性,下面这篇文章主要给大家介绍 ...
python爬虫入门教程--快速理解HTTP协议（一）
http协议是互联网里面最重要,最基础的协议之一,我们的爬虫需要经常和http协议打交道.下面这篇文章主要给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料,文中介绍的非常详细,需要 ...
python爬虫入门代码-Python爬虫入门
原标题:python爬虫入门基础知识 HTTP协议我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端 ...
python网络爬虫的基本步骤-黑客基础编写Python爬虫入门步骤
原标题:黑客基础编写Python爬虫入门步骤信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯带你走进黑客 ...
python爬虫程序实例-10个python爬虫入门实例
作者:h3zh1 来源:cnblogs.com/h3zh1/p/12548946.html 今天为大家准备了几个简单的python爬虫入门实例,分享给大家. 涉及主要知识点:web是如何交互的 req ...
python爬虫入门实例-终于领会python爬虫入门示例
随着人工智能大数据的火热 Python成为了广大科学家和普通大众的学习语言.在学习Python的过程中有很多人感到迷茫不知道自己该从什么地方入手,今天我们就来说一些新手该如何学习Python编程 ...
python爬虫入门代码-Python爬虫入门（一）网络爬虫之规则
Python爬虫入门(一) 总述本来早就想学习下python爬虫了,总是找各种借口,一直拖到现在才开始系统的学习. 我用的教程是中国大学MOOC上的由北京理工大学开设的Python网络爬虫与信息提取 ...
python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程
如何入门 Python 爬虫入门个吊,放弃 python爬虫入门需要哪些基础现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...
[转载]Python爬虫入门三之Urllib库的基本使用
python爬虫系列教程http://cuiqingcai.com/1052.html 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优 ...
Python爬虫入门（8）：Beautiful Soup的用法
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

最新文章

热门文章