python~爬虫~1

爬虫基本流程：

1、通过HTTP向目标发送请求，即发送request，请求可以包含header等信息，等待服务器相应

2、如果服务器相应，会返回一个response,response的内容便是要获取的内容

3、对得到的内容进行解析

如：内容为html格式，则用正则表达式、网页解析库解析。若json格式，则直接转为json对象解析

4、结构化保存数据

Request主要包含下面几个部分：

1、请求方式：主要有get,post两种类型

2、请求URL(统一资源定位符)

3、请求头：包含请求时的头部信息，如：User-Agent、Host、Cookies等信息

4、请求体：请求时另外需要的数据(post请求有)

Response主要包含下面几个方面：

1、响应状态：如：not found 404

2、响应头：服务器信息等内容

3、响应体：包含请求资源的内容，如网页HTML，图片，二进制数据等

抓取数据类型：

1、网页文本：HTML文档，json格式文本

2、图片：获取到的是图片的二进制文件，保存为图片格式

3、视频：也是二进制文件，保存为视频格式

4、其它

解析方式：

1、直接处理：网页构造比较简单

2、json解析：字符串转化json对象

3、正则表达式

4、BeautifulSoup

5、PyQuery

6、XPath

Urllib库(Python内置http请求库)

1、urllib.request 请求模块

2、urllib.parse url解析模块

3、urllib.error 异常处理模块

4、urllib.robotparser ronots.txt解析模块

用法：

1、urllib.request请求模块

Request替换urlopen

2、urllib.parse url解析模块

urllib.parse.urlpaese(urlstring,scheme='',allow_fragments=True)

3、urilib.error异常处理模块：

1、urlerror

2、httperror

4、urllib.robotparser

python~爬虫~1相关推荐

关于Python爬虫原理和数据抓取1.1
为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数数据平台购买数据:数据堂.国云数据 ...
python爬虫之Scrapy框架的post请求和核心组件的工作流程
python爬虫之Scrapy框架的post请求和核心组件的工作流程一 Scrapy的post请求的实现在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...
python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库
我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...
python爬虫案例_推荐上百个github上Python爬虫案例
现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...
Python培训分享：python爬虫可以用来做什么?
爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...
玩转 Python 爬虫，需要先知道这些
作者 | 叶庭云来源 | 修炼Python 头图 | 下载于视觉中国爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...
买不到口罩怎么办？Python爬虫帮你时刻盯着自动下单！| 原力计划
作者 | 菜园子哇编辑 | 唐小引来源 | CSDN 博客马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...
一个月入门Python爬虫，轻松爬取大规模数据
如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...
Python爬虫获取文章的标题及你的博客的阅读量，评论量。所有数据写入本地记事本。最后输出你的总阅读量！
Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...
Python爬虫破解有道翻译
有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...

python~爬虫~1

python~爬虫~1相关推荐

最新文章

热门文章