python-西刺代理的获取
写这个博客的原因是又用到了代理 但是公司没有购买代理 没办法只有爬取一些免费的代理 虽然不太稳定 凑合着用吧,为了防止以后代码在重写一遍这里把代码直接放在博客上以备后用。
import requests
from retry import retry
from scrapy import Selector@retry(8)
def get_agent(url):"""获取http代理:param url::return:所获取到的代理ip"""headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}agent_response = requests.get(url=url, headers=headers)agent_response = Selector(text=agent_response.text)all_agent = agent_response.xpath('//tr[@class="odd"]')for each_agent in all_agent:each_ip = each_agent.xpath('td[2]/text()').extract_first()each_port = each_agent.xpath('td[3]/text()').extract_first()each_kinds = each_agent.xpath('td[6]/text()').extract_first()full_agent = {"http": "http://%s:%s" % (each_ip, each_port)}check_agent(full_agent)next_page = agent_response.xpath('//a[@class="next_page"]/@href').extract_first()if next_page:print('this is %s page' % next_page)if next_page == '/wt/4':choice = input('do you wan get next page? y or n :>')if choice == 'n':exit()url = 'http://www.xicidaili.com' + next_pageget_agent(url)@retry(8)
def check_agent(full_agent):"""检查代理ip是否可用:param full_agent: 代理ip:return:"""url = 'http://www.xicidaili.com/nt/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36',"Referer": "http://www.xicidaili.com/nn/1"}try:xi_ci_response = requests.get(url=url, headers=headers, proxies=full_agent,timeout=30)except BaseException as e:print(e)else:if xi_ci_response.status_code == 200:print('Successfully this %s agent is available' % full_agent)with open('./ip_agent.text', 'a+') as f:f.write('%s' % full_agent + '\n')else:print('Failed this %s agent is unavailable' % full_agent)if __name__ == '__main__':url = 'http://www.xicidaili.com/wt/'get_agent(url)
我只爬取的是国内的htpp
爬取速度确实慢。慢慢让他爬取吧。
python-西刺代理的获取相关推荐
- 实战项目一:爬取西刺代理(获取代理IP)
爬虫的学习就是与反扒措施.反扒系统做斗争的一个过程,而使用代理IP是我们重要的防反扒的重要措施,代理IP的来源有两种一是你花钱去购买商家会给你提供一个接口你直接调用就可以了,二是自己在网上爬取高效IP ...
- Python 多线程爬取西刺代理
西刺代理是一个国内IP代理,由于代理倒闭了,所以我就把原来的代码放出来供大家学习吧. 镜像地址:https://www.blib.cn/url/xcdl.html 首先找到所有的tr标签,与class ...
- python之利用requests库爬取西刺代理,并检验IP的活性
用爬虫爬取某个网站的数据时,如果用一个IP频繁的向该网站请求大量数据,那么你的ip就可能会被该网站拉入黑名单,导致你不能访问该网站,这个时候就需要用到IP动态代理,即让爬虫爬取一定数据后更换IP来继续 ...
- Python 抓取 快代理、西刺代理 、西拉代理等等 构建免费代理池
import reimport requests from lxml import etreeheaders = {"User-Agent": "Mozilla/5.0 ...
- Python爬取西刺代理网页
爬取西刺代理网页的信息,并保存到本地的TXT文本或者mysql数据库中 本文只做爬取网页的练习 代码如下: import requests from lxml import etree import ...
- 从西刺代理爬取代理ip,并验证是否可用
最近又重新拾起了久违的爬虫,写了一个代理ip的爬取,验证和存储器. 1.爬取网站是西刺代理,使用了requests+beautifulsoup库 2.验证的网站使用了京东和淘宝的首页,用了urllib ...
- 代理IP爬取和验证(快代理西刺代理)
前言 仅仅伪装网页agent是不够的,你还需要一点新东西 今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点:免费,不稳 ...
- 西刺代理有效高匿代理爬取demo
1. 爬取西刺代理网站的国内高匿代理的IP地址和端口 2. 使用随机用户代理生成器 高匿代理:服务器只能发现代理的地址,但是发现不了你真实的IP地址 起始网页:https://www.xicidail ...
- 爬虫学习3.2 抓取西刺代理,并构建自己的代理池
任务描述 学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题. 抓取西刺代理,并构建自己的代理池. 西刺直通点:https://www.xicidaili.com/ . 参考资料:https ...
- 应对IP被封--抓取西刺代理,并构建自己的代理池
一.IP简介: 互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IP Address),是分配给网络上使用网际协议(英语:Inte ...
最新文章
- 蓝桥备赛第三周 倍增+贪心+素数+约数
- 12款响应式的 jQuery 旋转木马(传送带)插件
- 数字猜谜游戏python_Python Tkinter教程系列02:数字猜谜游戏
- .net Core 部署到 Linux
- Android中使用响应式编程RxJava
- Atitit 项目管理之道 attilax著
- 转:So Easy!让开发人员更轻松的工具和资源
- sublime text3 炫酷主题
- 智能家居远程控制:实现 APP 与 ESP8266 远程通信
- 18款表白源码,搭建网站必备,总有一款适合你
- iBeacon技术解析
- 解决微信端无法使用window.open打开文件的问题
- 【CSS】calc 函数(动态计算长度值)
- 利用YAKE进行文档关键词提取
- python 爬取腾讯漫画
- 网页设计与制作(五)
- 统计素数并求和 (20 分)本题要求统计给定整数M和N区间内素数的个数并对它们求和。
- AMiner论文推荐
- Apache中间件漏洞深析
- IDEA导入UAPStudio(Eclipse)创建的项目
热门文章
- 善用SourceMonitor+Astyle,让代码维护者不再骂娘
- python根据点计算直线方程
- [附源码]Java计算机毕业设计SSM电子病历系统
- java中repaint()_repaint()方法
- 网易蜂巢 mysql镜像_如何在网易蜂巢使用容器发布Java Web应用
- 用友uap开发nc65按钮配置
- DBR、FAT、FDT定位及FAT结构分析
- 手把手教你将sublime3打造成python开发利器
- golang小案例 —— 1970 年1月1日到现在的时间秒数计算出现在的日期时间
- GNN-CS224W: 17 Scaling Up GNNs