Python创建免费Ip代理池

主要使用requests第三方库。欸嘿,有了这个,就不用花钱买Ip了,生活小妙招。妙哇。

一、具体思路

1.利用requests爬取免费代理Ip的网页
2.存储列表后,导出依次发送请求到网页
3.判定Ip是否合法(就是能不能用的意思)
4.合法Ip录入总列表
5.遇到封Ip的网页,调用该源码py循环遍历总列表,直到爬完。

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、代码

1.引入库

import requests
from lxml import etree

2.爬取免费Ip网页的请求头

headers={'User-Agent':'使用自己的用户代理哇,啥?你不会找?看我上一篇文章把。'
}
proxies = {'http': '同理哇'
}
# 爬取代理池Ip的请求头
def Get_text(url,headers):resoe=requests.get(url,headers=headers)resoe.encoding='utf-8'return resoe.text

3.爬取的信息录入

def main():url = '输入免费代理Ip页面'Dbhtml = etree.HTML(Get_text(url, headers))Dip = Dbhtml.xpath('Xpath,请分析js')# 录入有效Ipfor j in Dip:proxies['http']=jPdurl = '测试Ip是否合法的网页(就是随便找一个就行)'Pdhtml = Get_Pd(Pdurl, headers,proxies)if Pdhtml == 'OK':list_1.append(j)print(list_1)

判断Ip是否合法

def Get_Pd(Pdurl,headers,proxies):try:respon = requests.get(Pdurl,headers=headers,proxies=proxies)respon.encoding = 'utf-8'return 'OK'except Exception as v:print(f"请求失败,无效Ip,{v}")return 'Stop'

全部代码

import requests
from lxml import etreeheaders={'User-Agent':''
}
proxies = {'http': ''
}
# 爬取代理池Ip的请求头
def Get_text(url,headers):resoe=requests.get(url,headers=headers)resoe.encoding='utf-8'return resoe.text
# 判断Ip是否合法
def Get_Pd(Pdurl,headers,proxies):try:respon = requests.get(Pdurl,headers=headers,proxies=proxies)respon.encoding = 'utf-8'return 'OK'except Exception as v:print(f"请求失败,无效Ip,{v}")return 'Stop'
# 爬取代理池Ip
def main():Dbhtml = etree.HTML(Get_text(url, headers))Dip = Dbhtml.xpath('')# 录入有效Ipfor j in Dip:proxies['http']=jPdurl = ''Pdhtml = Get_Pd(Pdurl, headers,proxies)if Pdhtml == 'OK':list_1.append(j)print(list_1)
if __name__ == '__main__':list_1 = []main()

总结

本文章纯属记录自身所学所写代码,不商用。
欸嘿嘿嘿,有了免费的代理Ip池就可以获取大量需要的信息了。什么?不会分析js的Xpath?不会分析申请头? 关注博主,博主会更新的。
请各位虫友自觉遵守http协议,不恶意爬虫,不破坏网络安全环境。

Python创建免费Ip代理池,伪装Ip。相关推荐

  1. Scrapy学习-13-使用DownloaderMiddleware设置IP代理池及IP变换

    设置IP代理池及IP变换方案 方案一: 使用国内免费的IP代理 1 http://www.xicidaili.com # 创建一个tools文件夹,新建一个py文件,用于获取代理IP和PORT fro ...

  2. python通过ip池爬_python爬虫18 | 就算你被封了也能继续爬,使用IP代理池伪装你的IP地址,让IP飘一会...

    我们上次说了伪装头部 ↓ 让自己的 python 爬虫假装是浏览器 小帅b主要是想让你知道 在爬取网站的时候 要多的站在对方的角度想问题 其实 这和泡妞差不多 你要多站在妹纸的角度思考 她的兴趣是什么 ...

  3. 使用IP代理池伪装你的IP(python)

    如何伪装你的 IP 呢? 对于 python 来说,使用代理访问很简单,就拿我们经常使用的 requests 库来说, 使用代理 ip如下: 定义代理 IP proxies = {'http':'ht ...

  4. Python爬虫——建立IP代理池

    在使用Python爬虫时,经常遇见具有反爬机制的网站.我们可以通过伪装headers来爬取,但是网站还是可以获取你的ip,从而禁掉你的ip来阻止爬取信息. 在request方法中,我们可以通过prox ...

  5. Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)

    现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是 ...

  6. 免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作简易流量爬虫...

    前言 我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,这样很容易被服务器封IP,因此需要设置IP代理,但又不想花钱买,网上有免费IP代理,但大多都数都是不可 ...

  7. Python搭建自己[IP代理池]

    IP代理是什么: ip就是访问网页数据服务器位置信息,每一个主机或者网络都有一个自己IP信息 为什么要使用代理ip: 因为在向互联网发送请求中,网页端会识别客户端是真实用户还是爬虫程序,在今天以互联网 ...

  8. python爬虫ip代理池_爬虫教程-Python3网络爬虫开发——IP代理池的维护

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 准备工作 要实现IP代理池我们首先需要成功安装好了 Redis 数据库并启动服务,另外还需要安装 Aiohttp.Requests.RedisPy.PyQ ...

  9. Scrapy ip代理池

    一.概述 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制,即在某一时间段内,当某个ip的访问次数达到一定的阀值时,该ip就会被拉黑.在一段时间内禁止访问. 应对的方法有两种: 1. 降低爬 ...

  10. 如何制作一个自己的IP代理池

    开始前的准备 注:在开始完成这个项目之前,需要懂一些简单的爬虫知识和tkinter的界面相关知识,不过这些相关的内容,博主也会通过链接的方式,在其他文章内对其进行详细描述,手把手教你完成一个IP代理池 ...

最新文章

  1. 报名 | 第二届“大数据在清华”高峰论坛
  2. 2014025679 《嵌入式系统程序设计》第五周学习总结
  3. Happy New Year
  4. 计算机护角,纸护角抗压测试仪
  5. 2015年第六届蓝桥杯 - 省赛 - C/C++大学B组 - H.移动距离
  6. 开放下载 | 阿里妈妈技术年货来啦!
  7. 前端学习(2156):uglifyjswebpackplugin的使用
  8. 各种数的由来 真是神奇又有趣
  9. wps分享为什么要登入_[win]为什么你需要便携应用?portableapps让你得心应手.
  10. php遍历子分类的函数,emlog程序获取主分类下的所有子分类ID函数
  11. JS的深浅复制,原来如此!
  12. python列表有哪些操作_python列表的基本操作有哪些
  13. 360导航源码php,仿360网址导航源码v3.0
  14. Marxan模型保护区优化与保护空缺甄选技术、InVEST生态系统中的应用
  15. 计算机接口74LS138,用74ls138设计全加器
  16. unity 打包一直停留在 detecting current sdk tools version
  17. 电子书转换器calibre
  18. redmine邮箱配置
  19. 格式化数据#4:有关机器学习的SDK/Lib/API
  20. echart图表(自定义提示框) 鼠标移动到数据展示区自定义展示提示框 天/时/分/秒

热门文章

  1. 论文阅读笔记《Regularizing Dialogue Generation by Imitating Implicit Scenarios》
  2. 《Total Commander:万能文件管理器》——12.6. 附录
  3. WIN10系统在中国知网下载期刊封面、扉页、目录的PDF版本
  4. EasyUI 系列之 combobox 默认选中第一个 添加请选择选项
  5. 计算机c盘系统自带的有哪些,电脑C盘里哪些文件是可以删除的?C盘可以删除的文件大全...
  6. 戴尔计算机的机械硬盘容量,新款戴尔g3加装机械硬盘教程终极版
  7. 使用python实现微信小程序自动签到2.0
  8. iMeta | 扬州大学杜予州团队揭示同域内同食物的两种昆虫肠道微生物群落装配机制...
  9. 算法与数据结构实验题 10.23 寡人的难题
  10. linux vim输入法切换,完美解决Mac下Vim/Emacs的输入法切换问题