使用python爬虫对网上公开免费代理网站进行爬取,组件自己的代理池进行代理上网

先找到某公开免费代理网站

程序思路非常清晰明确,直接放到爬虫代码里,就不单独介绍

编写程序脚本进行捕获源码和清洗

import requests
from selenium import webdriver
import re
import parselurl = 'https://www.xxxxx.com/free/'  #应审核要求网站打码......
c_o = webdriver.ChromeOptions()
c_o.add_argument('--headless')
browser = webdriver.Chrome(options=c_o) #设置无界面爬取选项
browser.get(url)
data = browser.page_source#获取源码
#print(data)
yu_ming = '<td data-title="IP">(.*?)</td>'  #网页源码中用非贪婪匹筛选出IP
yuming = re.findall(yu_ming, data, re.S)
print(yuming)duan_kou = '<td data-title="PORT">(.*?)</td>'#同上筛选出端口
duankou = re.findall(duan_kou, data, re.S)
print(duankou)for IP, PORT in zip(yuming, duankou):#print(IP,':',PORT)proxy = IP + ':' + PORTproxies_dict = {              #将IP和端口以http和https拼合一起"http://":"http://"+proxy,"https://":"https://"+proxy,}#  print(proxies_dict)response = requests.get(url, proxies_dict, timeout=2) #测试拼合出的代理是否可用正常使用
if response.status_code == 200:print("这个代理:", proxies_dict, "可用")
else:print("经过测试本次爬取中无可用代码")

理论上这种免费IP代理配置非常低,几百个都很少有几个能正常使用的,这里运气不错在第一页爬取就找到个可用的

验证一下,可以正常使用IP代理进行网页访问

然后就可以将爬取到的可用IP放到代理插件里进行代理浏览网页

稍微观察一下url翻页的规律,然后把翻页变量加入url,再加上for in range的循环就可以进行多页爬取,爬取n页源码筛选捕获所有可用IP就可以组建自己的代理池

原本事情就这样告一段落,

但之后继续对的爬虫代码功能完善和测试中发现 对网站进行多次爬取/多页爬取,经常会发生如下图所示,网站检测到爬取痕迹然后被ban

很明显的反爬手段,可以开本机代理或者用已有代理池IP继续爬取,只不过之后反爬的检测会愈加频繁

甚至出现多页爬取爬着爬着就被ban了

比如这里爬到第六页中途就被ban

这里仍有解决方式,就是准备已有代理池进行随机选取代理爬取,

只不过这种方法并不实用,对于普通人而言所付出代价高于收益,源码就不放了

爬取免费代理上网/组建IP代理池相关推荐

  1. 爬取西刺网实现ip代理池

    使用ip代理服务器可以防止在爬虫时被封本机ip.国内免费的高匿代理可以选择西刺网 总体目标是写一个爬虫,将这些字段保存在数据库中,然后筛选速度快的作为代理服务器,实现ip代理池. 在这里使用reque ...

  2. 网络爬虫爬取全国省市区(动态ip代理的获取,实现对ip限制的突破)

    记得还是在学校的时候听说过网络爬虫的,最近闲的蛋疼,想到爬虫这个稀奇的玩意儿感觉挺好玩的,所以就动手做了个 在起初的爬取中用的httpClient进行爬取的,发现越用越麻烦,代码过于繁琐而且解析htm ...

  3. golang爬取免费代理IP

    golang爬取免费的代理IP,并验证代理IP是否可用 这里选择爬取西刺的免费代理Ip,并且只爬取了一页,爬取的时候不设置useAgent西刺不会给你数据,西刺也做反爬虫处理了,所以小心你的IP被封掉 ...

  4. 多线程爬取免费代理ip池 (给我爬)

    多线程爬取免费代理ip池 (给我爬) 文章目录 多线程爬取免费代理ip池 (给我爬) 安装的库 IP 隐藏 代理ip 多线程爬取 读入代理ip 写入代理ip 验证代理ip 解析网页得到代理ip 获取网 ...

  5. Python爬虫:爬取免费代理ip

    之前写的几个爬虫都只能爬取到少量的信息,这是由于一个ip频繁地访问网站,会被认定为非正常的爬虫从而被屏蔽,这时候就需要使用代理ip来访问网站了,具体方法就是在发送request时添加一个proxy参数 ...

  6. 爬取免费代理IP并测试

    爬取免费代理IP并测试 写在开头:这次总共爬了三个代理ip的网站,前两个网站经过测试,ip并不能访问我真正想爬的网站 Git仓库:https://gitee.com/jiangtongxueya/my ...

  7. 爬取免费代理,拥有自己的代理池

    搜索公众号:白帽子左一,领配套练手靶场,全套安全课程及工具 很久很久以前,我有个梦想,就是SQL注入不要被ban,于是ip代理成为了首选,但是奈何钱包有限,只能爬取免费代理,于是借鉴了许多文章,形成了 ...

  8. python爬去新浪微博_Python爬虫爬取新浪微博内容示例【基于代理IP】

    Python爬虫爬取新浪微博内容示例[基于代理IP] 发布时间:2020-09-07 10:08:14 来源:脚本之家 阅读:120 本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参 ...

  9. python爬取免费优质IP归属地查询接口

    python爬取免费优质IP归属地查询接口 python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个 ...

最新文章

  1. pcb成型板aoi检测_缺陷检测 | PCB AOI质量检测之自动定位核选取算法
  2. 【做事必须搞清10个顺序】
  3. 安装完Ubuntu桌面后要做的(待续)
  4. requirements.txt一键安装项目所需要的的python包
  5. 设计模式之结构类模式PK
  6. 麦当劳降价“过冬” 一夜回到十年前(转)
  7. 读取和写入Windows的INI文件
  8. Linux终端进程后台运行与前后台切换
  9. open函数_全!Python函数和文件操作合集(长文系列第三篇)
  10. 系统集成项目管理工程师计算题(成本管理计算)
  11. ps手机计算机图标教程,手绘设计精美手机APP软件图标的PS教程
  12. Hbuilder无法正常运行微信小程序模拟器到指定页面为启动页
  13. WWW15年:改变世界的15个网站
  14. 2006高考之后又诞生了很多神一样的同学
  15. GooglePlay应用上架流程
  16. Linux系统启动流程及服务管理控制
  17. 大数据时代下 数据安全运营面临严峻待解决问题有哪些
  18. 新建UEFI启动分区
  19. 计算机应用程序2015答案,计算机应用技术复习资料(含答案)2015.doc
  20. PSCAD常见问题和官方解决办法总结

热门文章

  1. C# 计算国王将金币作为工资,发放给忠诚的骑士
  2. 注册公司怎么选择代理公司?
  3. luogu4383 bzoj5252[八省联考2018]林克卡特树lct
  4. 乐高玩具展品 大型玩具展品 租赁
  5. over(Partition by…) 一个超级好用的特有(开窗)函数。
  6. Logistic回归与最大熵模型
  7. 【SAP业务模式】之ICS(一):业务详述
  8. HDUOJ 1072
  9. chrome谷歌浏览器-DevTool开发者工具-详细总结
  10. Tomcat启动闪退且不报错