爬取站大爷的免费ip代理
“”"
Created by linuxdba at 2021/8/2
mail: linuxdba@qq.com
“”"
import requests
from lxml import etree
base_url = ‘https://www.zdaye.com’
url = ‘https://www.zdaye.com/dayProxy.html’
header = {
‘User-Agent’: ‘Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36’}
proxies_list = []
res = requests.get(url, headers=header)
res.encoding = ‘utf-8’
dom = etree.HTML(res.text)
sub_urls = dom.xpath(’//h3[@class=“thread_title”]/a/@href’)
sub_pages = []
for sub_url in sub_urls:
# print(base_url + sub_url)
for i in range(1, 11):
sub_page = (base_url + sub_url).rstrip(’.html’) + ‘/’ + str(i) + ‘.html’
sub_pages.append(sub_page)
#不要刷太多页(否则会被检测到立马封ip),或者获取优化获取策略防屏蔽
sub_res = requests.get(sub_pages[0], headers=header)
sub_res.encoding = ‘utf-8’
sub_dom = etree.HTML(sub_res.text)
ips = sub_dom.xpath(’//tbody/tr/td[1]/text()’)
ports = sub_dom.xpath(’//tbody/tr/td[2]/text()’)
proxies_list = []
for ip, port in zip(ips, ports):
proxies = {}
http = ‘http://’ + ip + ‘:’ + port
https = ‘https://’ + ip + ‘:’ + port
proxies[‘http’] = http
proxies[‘https’] = https
proxies_list.append(proxies)
print(proxies_list)
效果如下:
爬取站大爷的免费ip代理相关推荐
- 爬取西刺网实现ip代理池
使用ip代理服务器可以防止在爬虫时被封本机ip.国内免费的高匿代理可以选择西刺网 总体目标是写一个爬虫,将这些字段保存在数据库中,然后筛选速度快的作为代理服务器,实现ip代理池. 在这里使用reque ...
- 网络爬虫爬取全国省市区(动态ip代理的获取,实现对ip限制的突破)
记得还是在学校的时候听说过网络爬虫的,最近闲的蛋疼,想到爬虫这个稀奇的玩意儿感觉挺好玩的,所以就动手做了个 在起初的爬取中用的httpClient进行爬取的,发现越用越麻烦,代码过于繁琐而且解析htm ...
- 爬取 goubanjia 网站的免费 ip 免费 proxy JavaScript + Python + selenium
url: http://www.goubanjia.com/ 1. 分析页面: 根据结构,不难想象这是一个表格,如果通过页面去获取数据应该不难,但是通过检查发现,并不是想象中的那样(div, span ...
- python爬去新浪微博_Python爬虫爬取新浪微博内容示例【基于代理IP】
Python爬虫爬取新浪微博内容示例[基于代理IP] 发布时间:2020-09-07 10:08:14 来源:脚本之家 阅读:120 本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参 ...
- 使用免费ip代理进行投票
只要是投票系统,必然要限制一个用户投多张票. 如何限制呢?限制ip是最直观最简单的思路,可是代理池可以解决限制ip的情况. 如果投票页面前面加上一个验证码,那程序就会有点困难了. 有些投票使用微信号, ...
- Python创建免费Ip代理池,伪装Ip。
Python创建免费Ip代理池 主要使用requests第三方库.欸嘿,有了这个,就不用花钱买Ip了,生活小妙招.妙哇. 一.具体思路 1.利用requests爬取免费代理Ip的网页 2.存储列表后, ...
- 免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作简易流量爬虫...
前言 我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,这样很容易被服务器封IP,因此需要设置IP代理,但又不想花钱买,网上有免费IP代理,但大多都数都是不可 ...
- 爬虫利器:Python获取免费IP代理
由于现在很多网站都有反爬虫机制,同一个ip不能频繁访问同一个网站,这就使得我们在进行大量数据爬取时需要使用代理进行伪装,本博客给出几个免费ip代理获取网站爬取ip代理的代码,可以嵌入到不同的爬虫程序中 ...
- python爬虫练习--爬取站长素材中免费简历模板
python爬虫练习--爬取站长素材中免费简历模板 一.需求 二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾 结语 一.需求 此代码是为完成波波老师 ...
- 爬取站长之家免费简历
爬取站长之家免费简历 import os import requests from lxml import etree dir_name = './简历模板' if not os.path.exist ...
最新文章
- Ubuntu下安装Node.js
- yolov5 加跟踪 姿态
- 多才多艺的console
- Excel打开csv文件显示乱码问题解决方法
- 实施工程师常用linux命令,009Linux管理日常使用的基本命令
- nodejs 框架 中文express 4.xxx中文API手册
- This Android SDK requires An... ADT to the late...
- (HDU)1491-- Octorber 21st (校庆)
- c++变量的作用域、生存期和可见性
- 深入探究Kubernetes - 初识容器
- 在layui中使用 jquery 触发select 的 change事件无效
- php基础知识 书写格式
- dell设置从ssd启动_整个活儿:无损迁移系统到SSD过程记录及提升对比
- 如何在Docker上构建Node.js应用程序
- 3 Django视图层
- linux中判断语句,Linux--shel的if判断语句--05
- 《Java就业培训教程》_张孝祥_书内源码_05
- 国内外公有云对比:功能介绍、性能测试
- django下载文件异常 - ValueError: read of closed file
- cad断点快捷键_cad打断快捷键(cad十字路口路口怎么画)