“”"
Created by linuxdba at 2021/8/2
mail: linuxdba@qq.com
“”"
import requests
from lxml import etree

base_url = ‘https://www.zdaye.com’
url = ‘https://www.zdaye.com/dayProxy.html’
header = {
‘User-Agent’: ‘Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36’}

proxies_list = []

res = requests.get(url, headers=header)
res.encoding = ‘utf-8’
dom = etree.HTML(res.text)
sub_urls = dom.xpath(’//h3[@class=“thread_title”]/a/@href’)

sub_pages = []
for sub_url in sub_urls:
# print(base_url + sub_url)
for i in range(1, 11):
sub_page = (base_url + sub_url).rstrip(’.html’) + ‘/’ + str(i) + ‘.html’
sub_pages.append(sub_page)

#不要刷太多页(否则会被检测到立马封ip),或者获取优化获取策略防屏蔽
sub_res = requests.get(sub_pages[0], headers=header)
sub_res.encoding = ‘utf-8’
sub_dom = etree.HTML(sub_res.text)
ips = sub_dom.xpath(’//tbody/tr/td[1]/text()’)
ports = sub_dom.xpath(’//tbody/tr/td[2]/text()’)

proxies_list = []

for ip, port in zip(ips, ports):
proxies = {}
http = ‘http://’ + ip + ‘:’ + port
https = ‘https://’ + ip + ‘:’ + port
proxies[‘http’] = http
proxies[‘https’] = https
proxies_list.append(proxies)

print(proxies_list)

效果如下:

爬取站大爷的免费ip代理相关推荐

  1. 爬取西刺网实现ip代理池

    使用ip代理服务器可以防止在爬虫时被封本机ip.国内免费的高匿代理可以选择西刺网 总体目标是写一个爬虫,将这些字段保存在数据库中,然后筛选速度快的作为代理服务器,实现ip代理池. 在这里使用reque ...

  2. 网络爬虫爬取全国省市区(动态ip代理的获取,实现对ip限制的突破)

    记得还是在学校的时候听说过网络爬虫的,最近闲的蛋疼,想到爬虫这个稀奇的玩意儿感觉挺好玩的,所以就动手做了个 在起初的爬取中用的httpClient进行爬取的,发现越用越麻烦,代码过于繁琐而且解析htm ...

  3. 爬取 goubanjia 网站的免费 ip 免费 proxy JavaScript + Python + selenium

    url: http://www.goubanjia.com/ 1. 分析页面: 根据结构,不难想象这是一个表格,如果通过页面去获取数据应该不难,但是通过检查发现,并不是想象中的那样(div, span ...

  4. python爬去新浪微博_Python爬虫爬取新浪微博内容示例【基于代理IP】

    Python爬虫爬取新浪微博内容示例[基于代理IP] 发布时间:2020-09-07 10:08:14 来源:脚本之家 阅读:120 本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参 ...

  5. 使用免费ip代理进行投票

    只要是投票系统,必然要限制一个用户投多张票. 如何限制呢?限制ip是最直观最简单的思路,可是代理池可以解决限制ip的情况. 如果投票页面前面加上一个验证码,那程序就会有点困难了. 有些投票使用微信号, ...

  6. Python创建免费Ip代理池,伪装Ip。

    Python创建免费Ip代理池 主要使用requests第三方库.欸嘿,有了这个,就不用花钱买Ip了,生活小妙招.妙哇. 一.具体思路 1.利用requests爬取免费代理Ip的网页 2.存储列表后, ...

  7. 免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作简易流量爬虫...

    前言 我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,这样很容易被服务器封IP,因此需要设置IP代理,但又不想花钱买,网上有免费IP代理,但大多都数都是不可 ...

  8. 爬虫利器:Python获取免费IP代理

    由于现在很多网站都有反爬虫机制,同一个ip不能频繁访问同一个网站,这就使得我们在进行大量数据爬取时需要使用代理进行伪装,本博客给出几个免费ip代理获取网站爬取ip代理的代码,可以嵌入到不同的爬虫程序中 ...

  9. python爬虫练习--爬取站长素材中免费简历模板

    python爬虫练习--爬取站长素材中免费简历模板 一.需求 二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾 结语 一.需求 此代码是为完成波波老师 ...

  10. 爬取站长之家免费简历

    爬取站长之家免费简历 import os import requests from lxml import etree dir_name = './简历模板' if not os.path.exist ...

最新文章

  1. Ubuntu下安装Node.js
  2. yolov5 加跟踪 姿态
  3. 多才多艺的console
  4. Excel打开csv文件显示乱码问题解决方法
  5. 实施工程师常用linux命令,009Linux管理日常使用的基本命令
  6. nodejs 框架 中文express 4.xxx中文API手册
  7. This Android SDK requires An... ADT to the late...
  8. (HDU)1491-- Octorber 21st (校庆)
  9. c++变量的作用域、生存期和可见性
  10. 深入探究Kubernetes - 初识容器
  11. 在layui中使用 jquery 触发select 的 change事件无效
  12. php基础知识 书写格式
  13. dell设置从ssd启动_整个活儿:无损迁移系统到SSD过程记录及提升对比
  14. 如何在Docker上构建Node.js应用程序
  15. 3 Django视图层
  16. linux中判断语句,Linux--shel的if判断语句--05
  17. 《Java就业培训教程》_张孝祥_书内源码_05
  18. 国内外公有云对比:功能介绍、性能测试
  19. django下载文件异常 - ValueError: read of closed file
  20. cad断点快捷键_cad打断快捷键(cad十字路口路口怎么画)

热门文章

  1. 硬核科普 | 关于半导体行业IGBT晶圆发展及应用技术详解
  2. 从冬奥看中国科技(六):千里光伏初长成
  3. 空降领导想活下去必须做好的5点
  4. 多个excel表合并成一个excel表
  5. 软件工程大学生职业规划书
  6. 安利一个很棒的html背景图片网站
  7. css样式怎么插入背景图片,css样式怎么插入背景图片?
  8. Asp.net +jQuery +ajax 传参问题
  9. 面试系列--如何自我介绍
  10. 正态总体均值的假设检验