Python 抓取 快代理、西刺代理 、西拉代理等等 构建免费代理池
import reimport requests
from lxml import etreeheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"
}"""python博客:https://cuiqingcai.com/7048.html
"""
def get_html(url, headers=headers, encoding="UTF-8"):decode = requests.get(url, headers=headers).content.decode(encoding=encoding)# print(decode)return etree.HTML(decode)proxyAddr = set({})def isIPAddr(value):return re.match(r"(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d):\d+",value)# 快代理
def kuaiProxy():for pageNum in range(int(get_html('https://www.kuaidaili.com/free/inha/1/').xpath('//*[@id="listnav"]/ul/li[last()-1]/a/text()')[0])):content = get_html('https://www.kuaidaili.com/free/inha/%s/' % pageNum)for el in content.xpath('//*[@id="list"]/table/tbody/tr'):ip = el.xpath('./td[1]/text()')[0]port = el.xpath('./td[2]/text()')[0]print(ip, port)proxyAddr.add(ip + ":" + port)# 西刺代理
def xicidaili():content = get_html('https://www.xicidaili.com')for el in content.xpath('//tr'):if el.xpath("string-length(./td/text()) > 0"):print(el.xpath("string(concat(./td[2]/text(),':',./td[3]/text()))"))proxyAddr.add(el.xpath("string(concat(./td[2]/text(),':',./td[3]/text()))"))def cnproxy():content = get_html('https://cn-proxy.com/')for el in content.xpath('//tr'):if el.xpath("string-length(./td/text()) > 0") and isIPAddr(el.xpath("string(concat(./td[1]/text(),':',./td[2]/text()))")):print(el.xpath("string(concat(./td[1]/text(),':',./td[2]/text()))"))proxyAddr.add(el.xpath("string(concat(./td[1]/text(),':',./td[2]/text()))"))
def xiladaili():content = get_html('http://www.xiladaili.com/')for el in content.xpath('//tr/td[1]'):if el.xpath("string-length(./text()) > 0") and isIPAddr(el.xpath("string(./text())")):proxyAddr.add(el.xpath("string(./text())"))def goubanjia():content = get_html('http://www.goubanjia.com/')for el in content.xpath('//*[@id="services"]/div/div[2]/div/div/div/table/tbody/tr'):ip = []len2 = int(el.xpath('count(./td[1]/*)'))i = 0for td in el.xpath('./td[1]/*'):style_attr = td.xpath('./@style')if len(style_attr) == 0 or (len(style_attr) > 0 and re.match(r'display:\s*inline-block\s*(;)?', style_attr[0]) != None):if len(td.xpath('./text()')) > 0:if len2 - 1 == i:ip.append(':')ip.append(td.xpath('./text()')[0].strip())i += 1proxyAddr.add(''.join(ip))if __name__ == '__main__':# kuaiProxy()# for x in range(100):# goubanjia()# xicidaili()# cnproxy()xiladaili()print(len(proxyAddr))
所有代理均为互联网采集而来,需要自己筛选 无用代理。无用的很多
Python 抓取 快代理、西刺代理 、西拉代理等等 构建免费代理池相关推荐
- Python爬取快代理
前天,本人在爬取某网站时,第一次遇到IP被封的情况,等了几个小时之后,还是不行.最后,迫于无奈,还是请出了大招,使用代理IP.今天,闲来无事,本人爬取了快代理网站上 5 万多条免费高匿名代理IP. 首 ...
- 用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
- python 抓取解析接口数据_[干货]用python抓取摩拜单车API数据并做可视化分析(源码)...
原标题:[干货]用python抓取摩拜单车API数据并做可视化分析(源码) 在APP中能看到很多单车,但走到那里的时候,才发现车并不在那里.有些车不知道藏到了哪里:有些车或许是在高楼的后面,由于有GP ...
- blob的真实地址怎么获得_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址
之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...
- python 抓取电脑界面_学会了Python,我的人生跟开挂一样
当代职场年轻人的抑郁,有千百种. 一边是加不完的班.完不成的KPI.大把掉落的头发,一边是今年严峻的就业形势,职场人面临的工作压力可想而知. 忙碌的生活不仅磋磨了锐气,也让人觉得,自己仿佛永远没有真正 ...
- python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程
如何利用Python抓取PDF中的某些内容 学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...
- python 爬取加密视频_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址
之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...
- 电视剧《大秦赋》最近很火!于是我用Python抓取了“相关数据”,发现了这些秘密............
前言 最近,最火的电视剧莫过于<大秦赋了>,自12月1日开播后,收获了不错的口碑.然而随着电视剧的跟新,该剧在网上引起了激烈的讨论,不仅口碑急剧下滑,颇有高开低走的趋势,同时该剧的评分也由 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?
视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...
最新文章
- 网络推广外包专员浅析网络推广外包能否离开网站外链?
- 全球著名 CMS 产品大全
- ASP.NET页面刷新的几种实现方法
- html的混合标记,HTML XPath:提取与多个标签混合的文本?
- 《剑指offer》整数中1出现的次数(从1到n整数中1出现的次数)
- make: 警告:检测到时钟错误。您的创建可能是不完整的。
- 华为FreeBuds 3耳机更新推送:新增支持骨声纹识别特征
- python 3d绘图 汉字_完美解决Python matplotlib绘图时汉字显示不正常的问题
- bad response Not Found 404
- 阿里云服务器CPU100%问题
- 联想r720游戏模式不见了
- 电商网站后台九大功能模块详解
- 从“靠山吃山,靠水吃水”到守望“绿水青山”
- Appium工作日记:Message: An element could not be located on the page using the given search parameters.
- 牛顿法和高斯牛顿法对比
- 网络推广优化专员工作职责,网络推广专员工作内容
- 亚马逊、OZON、敦煌、MANO等跨境电商平台测评养号需要注意什么?
- 核函数和核矩阵【转】
- 迷你小包包成为时尚新宠,手掌包成为LV品牌潮流款式
- vmware设置共享文件夹