Scrapy抓取免费ip代理地址的示例

Scrapy是一个用于爬取网站并提取结构化数据的应用程序框架，可用于各种有用的应用程序，例如数据挖掘，信息处理或历史档案。本文主要描述从某IP代理网站抓取内容的代码示例，免费代理IP时效性很差，仅供大家学习试用。

centos7安装Scrapy

pip install Scrapy

我本机安装时，不幸发生错误（Microsoft Visual C++ 14.0 is required），转而使用whl文件安装，下载地址【https://www.lfd.uci.edu/~gohlke/pythonlibs/】
分别下载Twisted和Scrapy，Twisted是依赖包，也需要安装。注意操作系统版本。

pip install Twisted-20.3.0-cp38-cp38-win_amd64.whl
pip install Scrapy-2.1.0-py3-none-any.whl

创建项目

scrapy startproject ipproxys

创建项目文件结构和主要文件的作用，如下：
scrapy.cfg ：项目的配置文件
ipproxys/ ：项目的Python模块
ipproxys/items.py ：项目的目标文件，将抓取内容模型化
ipproxys/pipelines.py ：项目的管道文件
ipproxys/settings.py ：项目的设置文件
ipproxys/spiders/ ：存储具体爬虫代码的目录

编写items.py代码

在items文件中增加目标网页对应的类，继承Item类，数据项是Field类型

class IpProxyItem(scrapy.Item):# define the fields for your item here like:ip = scrapy.Field()port = scrapy.Field()# 匿名度anons = scrapy.Field()# 类型：http/httpsschema = scrapy.Field()# 国家country = scrapy.Field()# 位置position = scrapy.Field()# 响应速度speed = scrapy.Field()# 最后验证时间verify_time = scrapy.Field()

编写爬虫代码

在spiders目录下，新建jiangxianli_spider.py并编写爬虫类文件，继承scrapy.Spider类，实现start_requests和parse两个方法。

class JxlIpSpider(scrapy.Spider):"""搜索免费代理IP地址"""#  Spider 的标识符，用于唯一标识该 Spider；在整个项目中是全局唯一的name = "free_ip"def start_requests(self):"""必须定义并返回一组可以被 Spider 爬取的 Requests，Request 对象由一个 URL 和一个回调函数构成:return:"""urls = ['https://ip.jiangxianli.com/?page=1','https://ip.jiangxianli.com/?page=2'# 'https://www.kuaidaili.com/free'  # 国内高匿IP]for url in urls:yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):"""Request 对象中的回调方法，用来解析request返回的内容:param response::return:"""self.logger.info('正在爬取：< ' + response.request.url + ' >')# 按行读取数据tr_list = response.css("div.layui-form>table>tbody>tr")for tr in tr_list:# css的伪类 ::textip = tr.css('td:nth-child(1)::text').get()port = tr.css('td:nth-child(2)::text').get()anons = tr.css('td:nth-child(3)::text').get()schema = tr.css('td:nth-child(4)::text').get()position = tr.css('td:nth-child(5)::text').get()country = tr.css('td:nth-child(6)::text').get()# 7 运营商speed = tr.css('td:nth-child(8)::text').get()# 9 存活时间verify_time = tr.css('td:nth-child(10)::text').get()item = IpProxyItem()item['ip'] = ipitem['port'] = portitem['anons'] = anonsitem['schema'] = schemaitem['position'] = positionitem['country'] = countryitem['schema'] = schemaitem['speed'] = speeditem['verify_time'] = verify_timeprint(item)yield item

注意点：

name ：标识蜘蛛. 它在一个项目中必须是唯一的，也就是说，不能为不同的Spider设置相同的名称.
start_requests() ：必须返回一个可迭代的Requests（您可以返回请求列表或编写生成器函数），Spider将开始从中进行爬网. 随后的请求将从这些初始请求中依次生成.
parse() ：将被调用以处理为每个请求下载的响应的方法. response参数是TextResponse一个实例，该实例保存页面内容并具有其他有用的方法来处理它.

编写pipe保存数据

在piplelines.py文件中编写代码，将数据保存到redis库中。
同时，切记在配置文件中进行配置。

# 使用 connection pool 来管理对一个 redis server 的所有连接，避免每次建立、释放连接的开销
redis_pool = redis.ConnectionPool(host='192.168.xx.xx', port=6379, decode_responses=True, password='your password')
class IpProxyPipeline:def process_item(self, item, spider):self.save_redis(item)return itemdef save_redis(self, item):"""redis 提供两个类 Redis 和 StrictRedis, StrictRedis 用于实现大部分官方的命令，Redis 是 StrictRedis 的子类，用于向后兼用旧版本。redis 取出的结果默认是字节，我们可以设定 decode_responses=True 改成字符串:return:"""# 从连接池获取redis_server1 = redis.StrictRedis(connection_pool=redis_pool)# 直接创建连接# redis_server2 = redis.StrictRedis(host='192.168.xx.xx', port=6379, password='your password')# redis cache, push类似list.appendredis_server1.rpush('iplist', '{}://{}:{}'.format(item['schema'].lower(), item['ip'], item['port']))

配置pipe

# Configure item pipelines
ITEM_PIPELINES = {'ipproxys.pipelines.IpProxyPipeline': 300,
}

运行项目

按蜘蛛名称运行

scrapy crawl free_ip

也可以按文件运行：scrapy runspider <spider_file.py>

附录：试用代理

url = 'https://www.baidu.com'
# 从redis获取代理ip列表，循环试用
for i in range(redis_server1.llen('iplist')):ip_proxy = redis_server1.lindex('iplist', i)# 区分http和https，如果拆分为两个key，则更方便一些schame = 'http' if url.find(':') == 5 else 'https'if schame == ip_proxy[0:5]:proxies[schame] = ip_proxytry:# 超时分为连接超时和读取超时res = requests.get(url=url, proxies=proxies, timeout=(5, 20))if res.status_code == 200:print('ok')breakexcept Exception as ex:print(ex)