python之利用requests库爬取西刺代理，并检验IP的活性

用爬虫爬取某个网站的数据时，如果用一个IP频繁的向该网站请求大量数据，那么你的ip就可能会被该网站拉入黑名单，导致你不能访问该网站，这个时候就需要用到IP动态代理，即让爬虫爬取一定数据后更换IP来继续爬取。这个时候就需要代理IP池，当然，人民币玩家可以直接购买专业的IP代理服务，但是像我这种不想花钱的玩家，就只能通过爬取免费的代理网站上能用的IP来勉强维持生活。

现在我就讲下我是怎么获取大量IP，并检验获取的IP的活性：

首先选一个免费的代理IP网站，我选的是西刺代理：http://www.xicidaili.com/

用到的是python 中的requests库和 lxml库

requests。它是一个Python第三方库，处理URL资源特别方便，官方文档http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

要想使用requests，必须先进行安装：pip install requests

lxml。一个功能强大的Pythonic XML处理库，在这里主要用他的etree模块来定位并获得html和xml中的数据，安装命令：

pip install lxml

接下来进行代码的操作：（）

# !/usr/bin/env python
# -*- coding: utf-8 -*-import requests
from lxml import etree#请求路径，西刺代理网站
url = 'http://www.xicidaili.com/'
#请求响应头
headers = header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
#通过requests的get方法访问目标网站，获得响应对象
response = requests.get(url=url,headers=headers)

然后到西刺代理页面，通过chrome的开发者工具，通过xpath获取ip信息在页面中的位置：（这里如果用到xpath，需要用到google浏览器的xpath插件）

然后利用lxml中的etree对数据进行处理：

#创建一个etree对象，response.text为访问后的到的整个西刺代理页面
etree_obj = etree.HTML(response.text)
#通过筛选response.text，得到包含ip信息的列表
ip_list = etree_obj.xpath("//tr[@class='odd']")
item = []
#遍历得到的集合，将ip，和端口信息进行拼接，添加到item列表
for ip in ip_list:ip_num = ip.xpath('./td[2]/text()')[0]port_num = ip.xpath('./td[3]/text()')[0]http = ip_num + ':' +port_numitem.append(http)

得到一个ip列表后就需要检测IP的活性：

#遍历访问，检测IP活性
for it in item:#因为并不是每个IP都是能用，所以要进行异常处理try:proxy = {'http':it}url1 = 'https://www.baidu.com/'#遍历时，利用访问百度，设定timeout=1,即在1秒内，未送到响应就断开连接res = requests.get(url=url1,proxies=proxy,headers=headers,timeout=1)#打印检测信息，elapsed.total_seconds()获取响应的时间print(it +'--',res.elapsed.total_seconds())except BaseException as e:print(e)

得到结果如下：（就可以将相应时间少于1秒的ip存放到列表中用来建立IP代理池）

python之利用requests库爬取西刺代理，并检验IP的活性相关推荐

python爬虫——Scrapy入门（爬取西刺代理ip和port）
一.创建项目创建好的项目二.创建爬虫 1.创建一定要先进入刚才创建的爬虫项目文件中再创建爬虫对比未创建爬虫,发现多了一个xici.py文件 2.查看网站君子协议(robots): 3.解释爬虫 ...
Python 多线程爬取西刺代理
西刺代理是一个国内IP代理,由于代理倒闭了,所以我就把原来的代码放出来供大家学习吧. 镜像地址:https://www.blib.cn/url/xcdl.html 首先找到所有的tr标签,与class ...
Python爬取西刺代理网页
爬取西刺代理网页的信息,并保存到本地的TXT文本或者mysql数据库中本文只做爬取网页的练习代码如下: import requests from lxml import etree import ...
爬取西刺网的免费IP
在写爬虫时,经常需要切换IP,所以很有必要自已在数据维护库中维护一个IP池,这样,就可以在需用的时候随机切换IP,我的方法是爬取西刺网的免费IP,存入数据库中,然后在scrapy 工程中加入tools ...
手把手教你使用Python爬取西刺代理数据，不用担心我封IP了！
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
利用requests库爬取搜狗图片并存入文件夹下
看了一篇帖子,https://www.cnblogs.com/dearvee/p/6558571.html 这篇帖子作为一个引导,摸索着完成了第一个爬虫,现在将过程总结如下. 搜狗图片地址为 http ...
实战项目一：爬取西刺代理（获取代理IP）
爬虫的学习就是与反扒措施.反扒系统做斗争的一个过程,而使用代理IP是我们重要的防反扒的重要措施,代理IP的来源有两种一是你花钱去购买商家会给你提供一个接口你直接调用就可以了,二是自己在网上爬取高效IP ...
Python 理解使用requests库爬取数据
requests库是爬取数据的第三方库,安装方法: pip3 install requests 用法: r = requests.get(url) r 是返回的response对象,有五个最常用的属性 ...
Python爬虫：爬取西刺代理数据，讲解处理反爬措施（上篇）
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文章来自腾讯云作者:Python进阶者想要学习Python?有问题得不到第一 ...

python之利用requests库爬取西刺代理，并检验IP的活性

python之利用requests库爬取西刺代理，并检验IP的活性相关推荐

最新文章

热门文章