直接上代码了,没什么解释的 每步都有注释的 复制粘贴就可以用了.不能运行直接回复"代码" 给你源码

import requests
from lxml import etree
import jsonclass XiciProxiesSpider(object):def __init__(self):self.num = 1self.start_url = 'https://www.kuaidaili.com/free/inha/{}'.format(self.num)self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}def get_page_from_url(self, url):response = requests.get(url, headers=self.headers)return response.content.decode()def get_data_from_page(self, page):# 把page转换为Element对象html = etree.HTML(page)# 获取包含代理信息的tr列表trs = html.xpath('//tbody//tr')# 遍历trs, 获取数据信息data = {'http': [],# 'https': []}for tr in trs:try:ip = tr.xpath('./td[1]/text()')[0]  # IP地址port = tr.xpath('./td[2]/text()')[0]  # 端口ip_type = tr.xpath('./td[4]/text()')[0].lower()  # 类型 以及大小写转换# 如果ip不是http或https直接返回if ip_type not in data.keys():return# 构建代理数据item = {ip_type: '{}:{}'.format(ip, port)}# 检查代理IP是否可用, 如果可用添加到列表中if self.validate_ip(item, ip_type):data[ip_type].append(item)except Exception as ex:print(ex)print(etree.tostring(tr))print("222",data)return datadef validate_ip(self, item, ip_type):try:test_url = "{}://blog.csdn.net/weixin_43407092/article/details/89743502".format(ip_type)response = requests.get(test_url, proxies=item, timeout=2)if response.status_code == 200:return Truereturn Falseexcept Exception as ex:return Falsedef save_data(self, data):with open('快代理.txt', 'a') as f:json.dump(data, f, indent=2)self.num += 1def run(self):while True:# 获取页面内宽容page = self.get_page_from_url(self.start_url)# 获取可用代理IPdata = self.get_data_from_page(page)# 保存数据self.save_data(data)if __name__ == '__main__':fps = XiciProxiesSpider()fps.run()

执行结果如下,有用的代理不多.

python爬虫抓取,免费高匿快代理 IP相关推荐

  1. 用Python爬虫抓取免费代理IP

    点击上方"程序员大咖",选择"置顶公众号" 关键时刻,第一时间送达! 不知道大家有没有遇到过"访问频率太高"这样的网站提示,我们需要等待一段 ...

  2. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  3. 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据

    Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...

  4. Python学习教程:Python爬虫抓取技术的门道

    Python学习教程:Python爬虫抓取技术的门道 web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展.然而,正所谓成也萧何败也萧何,开放的特性.搜索引擎以及简单 ...

  5. Python爬虫抓取考试试题

    Python爬虫抓取考试试题 今天做了个小玩意,但觉得挺有意思的,分享给大家.主要是这样的,因为帮妹子寻找考试资料,发现同一本书不同的章节分别在不同的链接中,复制起来实在要命,所以就在想能不能用爬虫实 ...

  6. Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  7. 如何使用Python爬虫抓取数据?

    Python爬虫应用十分广泛,无论是各类搜索引擎,还是日常数据采集,都需要爬虫的参与.其实爬虫的基本原理很简单,今天小编就教大家如何使用Python爬虫抓取数据,感兴趣的小伙伴赶紧看下去吧! 工具安装 ...

  8. python爬虫抓取网站技巧总结

    不知道为啥要说是黑幕了??哈哈哈-..以后再理解吧 python爬虫抓取网站的一些总结技巧 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛 ...

  9. python 爬虫抓取心得分享

    /** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/11215795620 ...

  10. Python爬虫抓取论文引用量

    Python爬虫抓取论文引用量 目录 Python爬虫抓取论文引用量 1 平台情况介绍 2 爬虫抓取引用量 2.1 正则表达式匹配 2.2 循环获取数据 2.3 数据保存 3 完整代码 1 平台情况介 ...

最新文章

  1. 怎样写出无法维护的代码
  2. 24个笔画顺序表_小学一年级语文26个汉语拼音字母要点+田字格儿歌,赶紧给孩子看...
  3. security center拒绝访问_Steam被曝出0day提权漏洞,但厂商拒绝修复
  4. 给数据库减负的八个思路
  5. Python gevent学习笔记 1
  6. Informix 11.5 SQL 语句性能监控方法及实现
  7. 斐讯路由器使用说明,校园网破解,breed控制台,华硕固件
  8. ts540服务器安装系统,ThinkServer TS540 OS安装手册 V1.3.pdf
  9. 电子游戏设计与制作 第一章 计算机游戏概述
  10. 7z001怎么解压在安卓手机上面_安卓手机用户换iPhone11怎么转移手机便签内容?...
  11. 判断HTTP代理的高匿程度
  12. Fiddle 抓包小白一步带过超详细教程(含汉化)
  13. 蓝牙耳机啥牌子音质好?听音乐最好的蓝牙耳机分享
  14. IPv6网络的可操作安全考虑——RFC9099解析(一)
  15. 华能集团牵手阿里云 打造“互联物+”阳光采购样板工程
  16. Pandas:将excel中字符型数据转为float数值型
  17. python冰雹猜想程序_验证冰雹猜想(N100)(python实现)
  18. TL437x-IDK开发板硬件说明书
  19. 弹载计算机标准,弹载计算机
  20. 【机器学习5】python实现单纯形法和大M法

热门文章

  1. 《21天学通HTML+CSS+JavaScript Web开发(第7版)》——2.4 您要在Web上做什么
  2. 合肥工业大学计算机与信息学院胡敏,合肥工业大学计算机与信息学院导师介绍:胡敏...
  3. mysql数据库怎么该用户名和密码_如何修改MySql数据库的用户名和密码?
  4. 无纸化考试系统(CS)
  5. java win10窗口启动假死_win10底部任务栏卡死无响应解决
  6. 什么是云服务器?什么是阿里云服务器管理?
  7. mysql查看表内容 很乱_mysql数据表字符混乱问题解决办法
  8. C# ZXing.net解码测试(QRCode、DataMatrix、1D-Barcode一维码条码)
  9. jupyter 阿里云服务器配置 远程连接 开机自动启动服务
  10. 解决:The APR based Apache Tomcat Native library which allows optimal performance in production......