用到的网站https://www.kuaidaili.com/,免费的IP很不稳定,随时会挂,有需求的还是购买付费IP比较稳

import requests
from urllib import parse
from bs4 import BeautifulSoupheaders={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}session=requests.session()
session.headers=headers# 获取IP地址页面
def getIP(url):html=requests.get(url)# print(html.status_code)# print(html.text)if html.status_code==200:html.encoding=html.apparent_encodingsoup=BeautifulSoup(html.text,'lxml')trs=soup.select('tbody tr')for tr in trs:ip=tr.select('td')[0].textport=tr.select('td')[1].texttype=tr.select('td')[3].textTestIP(ip,port,type)# 测试IP代理的可用性,并将可用IP写入文件
def TestIP(ip,port,type):url="https://www.baidu.com"proxies={'http':'{}://{}:{}'.format(type,ip,port),'https':'{}://{}:{}'.format(type,ip,port)}# print(proxies)try:re=session.get(url,proxies=proxies,timeout=2,verify=False)print(re.status_code)print("可用IP为{}://{}:{}".format(type,ip,port))f.write("{}://{}:{}\n".format(type,ip,port))    # 写入文件except:print("不可用IP为{}://{}:{}".format(type,ip,port))if __name__ == '__main__':t=input("请输入要爬取的页数,每页15个:")url1="https://www.kuaidaili.com/free/intr/"with open('IP代理.txt','w') as f:for i in range(int(t)):url=parse.urljoin(url1,str(i+1))print(url)getIP(url)

python爬取快代理IP并测试IP的可用性相关推荐

  1. Python爬取快代理

    前天,本人在爬取某网站时,第一次遇到IP被封的情况,等了几个小时之后,还是不行.最后,迫于无奈,还是请出了大招,使用代理IP.今天,闲来无事,本人爬取了快代理网站上 5 万多条免费高匿名代理IP. 首 ...

  2. 爬虫爬取快代理网站动态IP

    爬虫爬取快代理网站动态IP import requests, time from lxml import etree import time import randomcookie = "& ...

  3. Scrapy-Redis 爬取快代理免费

    前面写过使用scrapy爬取快代理的免费ip 接下来使用的是基于Redis的分布式scrapy爬取快代理免费ip 1.准备好Redis 如何安装和使用Redis这里就不做介绍了,没有安装的可以参考我之 ...

  4. python爬取国内代理ip_【python】国内高匿代理爬取,并验证代理ip有效性

    运行环境:python 3.7.3 所需库: 1. requests 2. lxml 3. time 4. multiprocessing 5. sys 目的:构建自己的代理ip池,针对封ip型反爬虫 ...

  5. Python 爬取可用代理 IP

    2019独角兽企业重金招聘Python工程师标准>>> 通常情况下爬虫超过一定频率或次数,对应的公网 IP 会被封掉,为了能稳定爬取大量数据,我们一般从淘宝购买大量代理ip,一般 1 ...

  6. python爬取国内代理ip_Python语言爬取代理IP

    本文主要向大家介绍了Python语言爬取代理IP,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. #!/usr/bin/env python #-*-coding=utf-8 -* ...

  7. Python 抓取 快代理、西刺代理 、西拉代理等等 构建免费代理池

    import reimport requests from lxml import etreeheaders = {"User-Agent": "Mozilla/5.0 ...

  8. Python爬虫实战013:Python爬取免费代理ip

    import requests import time import random from lxml import etree from fake_useragent import UserAgen ...

  9. python爬取高匿代理IP(再也不用担心会进小黑屋了)

    一起进步 为什么要用代理IP 很多数据网站,对于反爬虫都做了一定的限制,这个如果写过一些爬虫程序的小伙伴应该都深有体会,其实主要还是IP进了小黑屋了,那么为了安全,就不能使用自己的实际IP去爬取人家网 ...

最新文章

  1. 密码统计分析工具pipal
  2. PHPEXCEL导出excel表格中长数字文本自动转为科学计数法的解决办法
  3. [深度学习-TF2实践]应用Tensorflow2.x训练ResNet,SeNet和Inception模型在cifar10,测试集上准确率88.6%
  4. 卓越领导者的智慧(精华版)
  5. Pjax无刷新跳转页面实现,支持超链接与表单提交
  6. 图神经网络(GNN)模型原理及应用综述
  7. 套接字socket 的地址族和类型、工作原理、创建过程
  8. C#基础5:字符串操作
  9. MySQL做毕设_PHP+MYSQL在线小说阅读网的设计与实现
  10. 现代通信原理2.3:为什么我们这么关注傅立叶变换?
  11. HTML(五)列表,区块,布局,表单和输入
  12. 6步教你zencart模板制作
  13. ffmpeg一些基本用法
  14. 饱和气压与温度的关系_饱和水蒸汽的压力与温度的关系介绍
  15. 校验组织机构代码 合法性
  16. 价值连城 图灵奖得主杰弗里·欣顿(Geoffrey·Hinton)的采访 给AI从业者的建议
  17. Android传感器Motion Sensor开发实验
  18. 民航飞行学院计算机研究生就业,数据说话:文科硕士研究生就业变迁史
  19. Android 物联网基于WIFI tcp配网流程
  20. Visual Studio Code(vs code)函数跳转及返回

热门文章

  1. 98%的人没解出的德国面试逻辑题(离散数学篇)!?
  2. gitlab的搭建与汉化
  3. 如何将你拍摄的照片转换成全景图及六面体(PTGui)
  4. drools7 (一、最简单的例子)
  5. WinForm读取相对路径(项目文件)下的图片
  6. Oracle Proc开发之Makefile的编写模板
  7. Swift游戏实战-跑酷熊猫 00 游戏预览
  8. java设计模式--观察者模式(Observer)
  9. 火车头下载文件并发布到木翼下载系统
  10. ESP8266编译脚本之四