python爬虫入门
一、首先需要了解爬虫的原理
爬虫就是一个自动化数据采集工作,你只需要告诉它需要采取哪些数据,给它一个url,就可以自动的抓取数据。其背后的基本原理就是爬虫模拟浏览器向目标服务器发送http请求,然后目标服务器返回响应结果,爬虫客户端收到响应并从中提取数据,再进行数据清洗、数据存储工作。
二、爬虫的基本流程
爬虫的基本流程与访问浏览器类似,就是建立一个http请求,当用户输入一个url之后,点击确认,客户端会与服务器建立连接,服务器收到请求之后,会从数据库中拿到响应的数据并且封装为一个http响应,将响应的结果返回给浏览器,浏览器对响应的数据进行解析、提取、渲染并且最终展示为页面。
三、爬虫的场景分类
1、通用爬虫:抓取系统的重要组成部分,抓取的是一整个页面,这种爬虫的方式相对简单,只需要四个步骤,指定url、发送请求、获取数据、持久化存储。
# 1、指定urlrequest_url = url# 2、发送请求responce = requests.get(url = request_url)# 3、获取数据responce_data = responce.text# 4、持久化存储with open('./sogou.html','w',encoding='utf-8') as fp:fp.write(responce_data)print("爬虫结束")
2、聚焦爬虫:建立在通用爬虫的基础之上,抓取的是页面中的特定的局部页面。需要五个步骤,步骤与通用爬虫类似,只是在获取数据之后,需要对数据进行过滤、清洗。网页的数据解析器有:(1)、正则表达式。(2)、html.parser。(3)、beautifulsoup。(4)、lxml。
小结
这篇文章主要对爬虫入门进行介绍,我也是一个刚接触爬虫不久的小白,我希望和大家一起学习进步,之后我会将我学习路线和内容慢慢更新发表出来。
python爬虫入门相关推荐
- python爬虫入门教程--优雅的HTTP库requests(二)
requests 实现了 HTTP 协议中绝大部分功能,它提供的功能包括 Keep-Alive.连接池.Cookie持久化.内容自动解压.HTTP代理.SSL认证等很多特性,下面这篇文章主要给大家介绍 ...
- python爬虫入门教程--快速理解HTTP协议(一)
http协议是互联网里面最重要,最基础的协议之一,我们的爬虫需要经常和http协议打交道.下面这篇文章主要给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料,文中介绍的非常详细,需要 ...
- python爬虫入门代码-Python爬虫入门
原标题:python爬虫入门 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端 ...
- python网络爬虫的基本步骤-黑客基础 编写Python爬虫入门步骤
原标题:黑客基础 编写Python爬虫入门步骤 信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯 带你走进黑客 ...
- python爬虫程序实例-10个python爬虫入门实例
作者:h3zh1 来源:cnblogs.com/h3zh1/p/12548946.html 今天为大家准备了几个简单的python爬虫入门实例,分享给大家. 涉及主要知识点:web是如何交互的 req ...
- python爬虫入门实例-终于领会python爬虫入门示例
随着人工智能 大数据的火热 Python成为了广大科学家和普通大众的学习语言.在学习Python的过程中 有很多人感到迷茫 不知道自己该从什么地方入手,今天我们就来说一些新手该如何学习Python编程 ...
- python爬虫入门代码-Python爬虫入门(一) 网络爬虫之规则
Python爬虫入门(一) 总述 本来早就想学习下python爬虫了,总是找各种借口,一直拖到现在才开始系统的学习. 我用的教程是中国大学MOOC上的由北京理工大学开设的Python网络爬虫与信息提取 ...
- python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程
如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...
- [转载]Python爬虫入门三之Urllib库的基本使用
python爬虫系列教程http://cuiqingcai.com/1052.html 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优 ...
- Python爬虫入门(8):Beautiful Soup的用法
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
最新文章
- ccf 最优灌溉(prime模板)
- ThinkPHP 5.0 入门教程 一:安装ThinkPHP并在Web浏览器访问
- 6、存储函数详解,创建,查看,修改,删除
- java public object_Java_Object
- python递归函数查询表_python---------------递归函数
- react 日历组件_anujs1.5.1支持React.Suspense与lazy
- 领域应用 | 如何将知识图谱特征学习应用到推荐系统?
- SQL SERVER占用CPU过高排查和优化
- LAMP-----2、php-5.3.27编译安装
- python super()函数
- Redis 官方可视化工具,高颜值,功能太强大!
- 搭建dubbo监控中心
- 湖北浓郁炖黄油鸡汤(三黄鸡)详细做法
- 内网安全-arp欺骗,dns劫持钓鱼
- 以太坊客户端mist和geth加快区块同步速度的方法
- E4A - 蓝牙串口连接失败的问题
- RTOS内功修炼记(九)—— 任务入口函数执行完毕之后去哪里?
- Pytest框架系列——配置文件Pytest.ini
- @Scheduled(cron = “* * * * * *“) 注解 cron 表达式使用
- 【笔记】最佳日志管理工具:51个有用的日志管理、监视、分析等工具