python-西刺代理的获取

写这个博客的原因是又用到了代理但是公司没有购买代理没办法只有爬取一些免费的代理虽然不太稳定凑合着用吧，为了防止以后代码在重写一遍这里把代码直接放在博客上以备后用。

import requests
from retry import retry
from scrapy import Selector@retry(8)
def get_agent(url):"""获取http代理:param url::return:所获取到的代理ip"""headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}agent_response = requests.get(url=url, headers=headers)agent_response = Selector(text=agent_response.text)all_agent = agent_response.xpath('//tr[@class="odd"]')for each_agent in all_agent:each_ip = each_agent.xpath('td[2]/text()').extract_first()each_port = each_agent.xpath('td[3]/text()').extract_first()each_kinds = each_agent.xpath('td[6]/text()').extract_first()full_agent = {"http": "http://%s:%s" % (each_ip, each_port)}check_agent(full_agent)next_page = agent_response.xpath('//a[@class="next_page"]/@href').extract_first()if next_page:print('this is %s page' % next_page)if next_page == '/wt/4':choice = input('do you wan get next page? y or n :>')if choice == 'n':exit()url = 'http://www.xicidaili.com' + next_pageget_agent(url)@retry(8)
def check_agent(full_agent):"""检查代理ip是否可用:param full_agent: 代理ip:return:"""url = 'http://www.xicidaili.com/nt/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36',"Referer": "http://www.xicidaili.com/nn/1"}try:xi_ci_response = requests.get(url=url, headers=headers, proxies=full_agent,timeout=30)except BaseException as e:print(e)else:if xi_ci_response.status_code == 200:print('Successfully this %s agent is available' % full_agent)with open('./ip_agent.text', 'a+') as f:f.write('%s' % full_agent + '\n')else:print('Failed this %s agent is unavailable' % full_agent)if __name__ == '__main__':url = 'http://www.xicidaili.com/wt/'get_agent(url)

我只爬取的是国内的htpp爬取速度确实慢。慢慢让他爬取吧。

python-西刺代理的获取相关推荐

实战项目一：爬取西刺代理（获取代理IP）
爬虫的学习就是与反扒措施.反扒系统做斗争的一个过程,而使用代理IP是我们重要的防反扒的重要措施,代理IP的来源有两种一是你花钱去购买商家会给你提供一个接口你直接调用就可以了,二是自己在网上爬取高效IP ...
Python 多线程爬取西刺代理
西刺代理是一个国内IP代理,由于代理倒闭了,所以我就把原来的代码放出来供大家学习吧. 镜像地址:https://www.blib.cn/url/xcdl.html 首先找到所有的tr标签,与class ...
python之利用requests库爬取西刺代理，并检验IP的活性
用爬虫爬取某个网站的数据时,如果用一个IP频繁的向该网站请求大量数据,那么你的ip就可能会被该网站拉入黑名单,导致你不能访问该网站,这个时候就需要用到IP动态代理,即让爬虫爬取一定数据后更换IP来继续 ...
Python 抓取快代理、西刺代理、西拉代理等等构建免费代理池
import reimport requests from lxml import etreeheaders = {"User-Agent": "Mozilla/5.0 ...
Python爬取西刺代理网页
爬取西刺代理网页的信息,并保存到本地的TXT文本或者mysql数据库中本文只做爬取网页的练习代码如下: import requests from lxml import etree import ...
从西刺代理爬取代理ip，并验证是否可用
最近又重新拾起了久违的爬虫,写了一个代理ip的爬取,验证和存储器. 1.爬取网站是西刺代理,使用了requests+beautifulsoup库 2.验证的网站使用了京东和淘宝的首页,用了urllib ...
代理IP爬取和验证（快代理西刺代理）
前言仅仅伪装网页agent是不够的,你还需要一点新东西今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点:免费,不稳 ...
西刺代理有效高匿代理爬取demo
1. 爬取西刺代理网站的国内高匿代理的IP地址和端口 2. 使用随机用户代理生成器高匿代理:服务器只能发现代理的地址,但是发现不了你真实的IP地址起始网页:https://www.xicidail ...
爬虫学习3.2 抓取西刺代理，并构建自己的代理池
任务描述学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题. 抓取西刺代理,并构建自己的代理池. 西刺直通点:https://www.xicidaili.com/ . 参考资料:https ...
应对IP被封--抓取西刺代理，并构建自己的代理池
一.IP简介: 互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IP Address),是分配给网络上使用网际协议(英语:Inte ...

python-西刺代理的获取

python-西刺代理的获取相关推荐

最新文章

热门文章