Python爬虫-代理池-爬取代理入库并测试代理可用性

目的：建立自己的代理池。可以添加新的代理网站爬虫，可以测试代理对某一网址的适用性，可以提供获取代理的 API。

整个流程：爬取代理 ----> 将代理存入数据库并设置分数 ----> 从数据库取出代理并检测 ----> 根据响应结果对代理分数进行处理 ----> 从 API 取出高分代理 ----> 用高分代理爬取目标网站

分析：

1、爬虫类的编写：负责抓取代理并返回。

因为不同的代理网站的网页结构不同，所以需要单独为每一个代理网页写爬虫。
调用每个爬取方法，依次返回结果。

2、数据库类的编写：负责代理的存取与代理分数的设置。

判断待存入代理是否存在，不存在便存入数据库。
将代理存入数据库，首次入库的代理分数设置为100。
代理测试失败时，代理分数做相应的扣除，分数低于指定值时从数据库中移除。代理测试成功时，将代理分数重新设置为100。
需要使用代理时，从数据库中随机取出高分代理。

3、保存类的编写：负责执行爬取，并将结果存入数据库。

判断数据库是否已经达到满足值，根据返回值决定是否执行爬取。
将爬取得到的结果存入数据库

4、测试代理类的编写：负责测试代理对目标网站的可用性。

用每一个代理爬取目标网站，根据响应状态码对代理分数进行设置。

5、提取代理 API 的编写：负责提供获取代理信息的接口。

具体实现：

1、Crawler：

2、RedisClient：

3、Saver：

4、Tester：

5、API：

总结：这里我只爬取了两个代理网站的代理，西刺和快代理，可以在 Crawler 类中添加名称以 crwal_ 开始的方法来扩充。详细代码我放到 Github上了，https://github.com/ysl125963/proxy-pool

转载于:https://www.cnblogs.com/yangshaolun/p/10932846.html

Python爬虫-代理池-爬取代理入库并测试代理可用性相关推荐

[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（四） —— 应对反爬技术（选取 User-Agent、添加 IP代理池以及Cookies池）
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
爬虫实战（一）—利用requests、mongo、redis代理池爬取英雄联盟opgg实时英雄数据
概述可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider 包括了项目的所有代码. 此篇文 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（三） —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（二） —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...
Python爬虫---影评的爬取
Python爬虫-影评的爬取介绍:爬虫练手,使用Requests库进行豆瓣影评的爬虫,做成词云图,写文章主要做一些问题解决的记录. 运行环境:python 3.8, Pycharm 关于在豆瓣爬取影 ...
【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)
[Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志项目简介步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程前言一丶整体思路二丶遇到的问题三丶分析URL 四丶解析页面五丶写入文件六丶完整代码七丶最后前言大家好我是墨绿头顶总 ...
python爬虫：Selenium爬取B站视频标题、播放量、发布时间
上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...
python 爬虫实例电影-Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬虫系列之爬取微信公众号新闻数据
Python爬虫系列之爬取微信公众号新闻数据小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流 ...

Python爬虫-代理池-爬取代理入库并测试代理可用性

Python爬虫-代理池-爬取代理入库并测试代理可用性相关推荐

最新文章

热门文章