欢迎大家关注公众号【哈希大数据】

【小白学爬虫连载(1)】-爬虫框架简介

【小白学爬虫连载(2)】--Requests库介绍

【小白学爬虫连载(3)】--正则表达式详细介绍

【小白学爬虫连载(4)】-如何使用chrome分析目标网站

【小白学爬虫连载(5)】--Beautiful Soup库详解

【小白学爬虫连载(6)】--Selenium库详解

【小白学爬虫连载(7)】--scrapy框架的安装

【小白学爬虫连载(8)】--scrapy框架入门教程

【小白学爬虫连载(9)】--scrapy构架设计分析

【小白学爬虫连载(10)】--如何用Python实现模拟登陆网站

【小白学爬虫连载(11)】--获取免费高匿代理IP

【小白学爬虫连载(11)】--pyquery库详解

【小白学爬虫连载(13)】--Scrapy如何突破反爬虫

爬虫是什么?
请求、获取,整理、保存你想要的网站数据的一种自动化程序。
爬虫基本步骤
爬虫抓取网站数据和我们平常浏览网页的步骤是一样的主要可分为四个步骤:

  1. 发起请求
    Python通过HTTP库向目标站点发起Request请求,请求主要包含URL(也就是网站的网址)以及User-Agent、cookies等请求头信息,然后等待服务器响应。

  2. 下载响应内容
    如果服务器正常响应,会返回一个Response(响应),Response中包含状态码、响应头、响应体等,响应体内容类型可能有HTML,Json字符串,二进制数据(如图片、视频)等类型。

  3. 解析下载内容
    得到的如果是HTML,在python中可以用正则表达式(re库)、解析库(Beautifulsoup、pyquery、xpath)进行解析。如果是Json,可以直接转为Json对象解析,可能是二进制数据(图片、视频),可以直接按相应格式保存。

  4. 保存数据
    可根据获取到的数据格式,已经业务需求存为文本(txt或Json格式),也可保存到关系型数据库或非关系型数据库,或者保存特定格式的文件。

Request和Response是什么?分别包含哪些内容?

当客户端(对网站来说是浏览器)向服务器发送请求时,服务器会先创建两个对象:request对象和response对象。其中request对象中封装的是请求信息,response是用来向客户端响应信息。当客户端接收到响应信息后会进行相应解析显示。
Request主要包含以下内容:

1.请求方式
常用的请求方式主要有两种:
GET:从服务器上获取数据
POST:可简单理解为向服务器传送数据新建一条记录
还有其他四种:
HEAD:获取网页请求头信息
PUT:可简单理解为向服务器传送数据覆盖URL位置的资源
PATCH:可简单理解为向服务器传送数据更新部分内容
DELETE:删除URL位置存储的数据

2.请求URL
URL是Uniform Resoure Locator 的缩写,译为“统一资源定位符”,通俗来说,URL是是Internet上描述信息资源的字符串,采用URL可以用一种统一的格式来描述各种信息资源,包含文件、服务器的地址目录等。URL是计算机世界的详细地址,通过它可以定位到你想获取的数据。

3.请求头
Headers包含请求的头部信息,包括User-Agent、Cookies等。

4.请求体
POST、PUT、PATCH、DELETE等请求需要向数据库传到数据,这部分内容在请求体中。

Response主要包含以下内容:
1.响应状态
存在多种响应状态:常见的有200:请求成功;301:重定向;403:服务器拒绝执行请求;404请求失败,在服务器中找不到该资源。503:请求失败,服务器当前无法处理请求。

2.响应头
响应头包含:响应内容的类型和编码类型,服务器的信息等

3.响应体
包含求取资源的内容,如网页HTML,json,图片,视频等二进制数据等。

如何解析数据

在Python中根据获取的的内容可分为以下解析方式:

1.获取到的是json格式数据,用json包中的loads函数将已编码的 JSON 字符串解码为 Python 对象。

2.获取的是HTML,及二进制数据,可以用以下几种方式:

正则表达式(re库)直接提取信息,正则表达式的使用范围最为宽泛,但规则较多,使用难度大。
BeautifulSoup库:它是解析、遍历、维护“标签树”(HTML可认为是一个标签树)的功能库。HTML中的信息有很多,该库可以帮我们快速定位、获取我们想要的信息。具体使用方法后面再讲。

image

PyQuery库:该库是jQuery的Python实现,也是一个很棒的解析HTML文件的库,它的优点是语法简单,但我在实际应用过程中会出现部分标签解析不出的情况。这个大家要留意,当检查过语法无误但依然无法解析出标签内容时请换种解析方式(推荐使用BeautifulSoup)。

如何保存数据

Python提供各种数据的保存方式,所以数据的保存格式主要是看自己的需求。一般可保存为以下格式:

  1. 可以保存为简单的纯文本格式或json格式,在保存时记得制定编码格式(如utf-8或gbk)。

  2. 对于图片或视频可保存为对应格式的二进制文件。

  3. 可保存到MySQL、Oracle、SqlServer等关系型数据库。

  4. 可保存到MongoDB、Redis等关系型数据库

本次分享就到这里,下次将给大家分享如何用Python中的requests库爬取你想要的的数据。

【小白学爬虫连载(1)】-爬虫框架简介相关推荐

  1. 小白学python(豆瓣爬虫)

    小白学python(豆瓣爬虫) 这是我之前跟着教程做的一个小爬虫,爬取豆瓣top250影片资料.其实爬虫更多的是对库函数,html,正则等等知识的应用,像我这样只知皮毛是远远不够的.我暂且将代码贴出, ...

  2. 爬虫基础(五)-----scrapy框架简介

    ---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...

  3. 小白学react之页面BaseLayout框架及微信的坑

    上一篇<小白学react之SASS实战>我们学习了如何通过运用sass来为我们的应用页面"上色",加入css的支持. 但是我们到现在为止,每个页面的标题还是系统默认的, ...

  4. 【小白学爬虫连载(3)】--正则表达式详细介绍

    欢迎大家关注公众号[哈希大数据] [小白学爬虫连载(1)]-爬虫框架简介 [小白学爬虫连载(2)]--Requests库介绍 [小白学爬虫连载(3)]--正则表达式详细介绍 [小白学爬虫连载(4)]- ...

  5. python 爬虫框架_小白学 Python 爬虫(28):自动化测试框架 Selenium (下)

    人生苦短,我用 Python 如果我的文章对您有帮助,请关注支持下作者的公众号:极客挖掘机,您的关注,是对小编坚持原创的最大鼓励:) 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Py ...

  6. 小白学 Python 爬虫(27):自动化测试框架 Selenium 从入门到放弃(上)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  7. 小白学 Python 爬虫(28):自动化测试框架 Selenium 从入门到放弃(下)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. python 使用socks 爬虫_小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  9. post python爬虫_小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 如果我的文章对您有帮助,请关注支持下作者的公众号:极客挖掘机,您的关注,是对小编坚持原创的最大鼓励:) 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Py ...

最新文章

  1. 找子串替换(kmp)poj1572
  2. 借助Redis完成延时任务
  3. Libevent:6辅助函数以及类型
  4. 遵义大数据中心项目工程概况_中策大数据:8月建筑工程项目有哪些?建筑工程项目信息汇总...
  5. ES6学习笔记(三):教你用js面向对象思维来实现 tab栏增删改查功能
  6. windows系统 ping Telnet等系统自带命令无法使用原因及解决方法
  7. Python中文件操作和文件夹操作的学习笔记
  8. 一个合格的ACMer的代码当中,都藏着哪些秘密?
  9. ubnutu更换合适源(阿里源)
  10. python自编中值滤波器
  11. ktv点歌系统服务器破解,欧凯KTV卡拉OK点歌系统
  12. 华尔街英语:又一成人英语巨头悄然出局
  13. 计算机管理可以全自动,这款全自动化的小工具,可以让你在父母面前光明正大得玩电脑啦...
  14. R语言构建logistic回归模型:模型系数(model coefficient)、模型总结信息(summary)、模型评估(偏差deviance计算、伪R方计算( pseudo R-squared)
  15. [渝粤教育] 平顶山学院 学前心理学 参考 资料
  16. 请帮我写一封情书,500字左右
  17. 从架构到算法到赋能业务,关于国际化电商技术链路的最完整分享【Lazada技术开放日】
  18. React中文文档之Handling Events
  19. avcodec_receive_frame
  20. log4cpp库的使用

热门文章

  1. 关于 此证书的签发者无效 解决办法 (整理自 网络)
  2. 基于新闻数据的社交网络图数据分析实战
  3. Word2016排版tips总结——毕业论文排版
  4. 基于java离散制造业产品销售管理系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署
  5. html中css文件怎么写,HTML 头文件中 CSS 怎么写?
  6. 宏晶微电子 笔试题凉经
  7. 爬虫好学吗python-八爪鱼采集器能取代python爬虫吗?
  8. js 前端根据多个条件筛选过滤数据
  9. 交换机基本配置(思科模拟器)
  10. 公司宣布加码投资中国,评论区炸了