import reimport requests
from lxml import etreeheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"
}"""python博客:https://cuiqingcai.com/7048.html
"""
def get_html(url, headers=headers, encoding="UTF-8"):decode = requests.get(url, headers=headers).content.decode(encoding=encoding)# print(decode)return etree.HTML(decode)proxyAddr = set({})def isIPAddr(value):return re.match(r"(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d):\d+",value)# 快代理
def kuaiProxy():for pageNum in range(int(get_html('https://www.kuaidaili.com/free/inha/1/').xpath('//*[@id="listnav"]/ul/li[last()-1]/a/text()')[0])):content = get_html('https://www.kuaidaili.com/free/inha/%s/' % pageNum)for el in content.xpath('//*[@id="list"]/table/tbody/tr'):ip = el.xpath('./td[1]/text()')[0]port = el.xpath('./td[2]/text()')[0]print(ip, port)proxyAddr.add(ip + ":" + port)# 西刺代理
def xicidaili():content = get_html('https://www.xicidaili.com')for el in content.xpath('//tr'):if el.xpath("string-length(./td/text()) > 0"):print(el.xpath("string(concat(./td[2]/text(),':',./td[3]/text()))"))proxyAddr.add(el.xpath("string(concat(./td[2]/text(),':',./td[3]/text()))"))def cnproxy():content = get_html('https://cn-proxy.com/')for el in content.xpath('//tr'):if el.xpath("string-length(./td/text()) > 0") and isIPAddr(el.xpath("string(concat(./td[1]/text(),':',./td[2]/text()))")):print(el.xpath("string(concat(./td[1]/text(),':',./td[2]/text()))"))proxyAddr.add(el.xpath("string(concat(./td[1]/text(),':',./td[2]/text()))"))
def xiladaili():content = get_html('http://www.xiladaili.com/')for el in content.xpath('//tr/td[1]'):if el.xpath("string-length(./text()) > 0") and isIPAddr(el.xpath("string(./text())")):proxyAddr.add(el.xpath("string(./text())"))def goubanjia():content = get_html('http://www.goubanjia.com/')for el in content.xpath('//*[@id="services"]/div/div[2]/div/div/div/table/tbody/tr'):ip = []len2 = int(el.xpath('count(./td[1]/*)'))i = 0for td in el.xpath('./td[1]/*'):style_attr = td.xpath('./@style')if len(style_attr) == 0 or (len(style_attr) > 0 and re.match(r'display:\s*inline-block\s*(;)?', style_attr[0]) != None):if len(td.xpath('./text()')) > 0:if len2 - 1 == i:ip.append(':')ip.append(td.xpath('./text()')[0].strip())i += 1proxyAddr.add(''.join(ip))if __name__ == '__main__':# kuaiProxy()# for x in range(100):#     goubanjia()# xicidaili()# cnproxy()xiladaili()print(len(proxyAddr))

所有代理均为互联网采集而来,需要自己筛选 无用代理。无用的很多

Python 抓取 快代理、西刺代理 、西拉代理等等 构建免费代理池相关推荐

  1. Python爬取快代理

    前天,本人在爬取某网站时,第一次遇到IP被封的情况,等了几个小时之后,还是不行.最后,迫于无奈,还是请出了大招,使用代理IP.今天,闲来无事,本人爬取了快代理网站上 5 万多条免费高匿名代理IP. 首 ...

  2. 用python抓取智联招聘信息并存入excel

    用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...

  3. python 抓取解析接口数据_[干货]用python抓取摩拜单车API数据并做可视化分析(源码)...

    原标题:[干货]用python抓取摩拜单车API数据并做可视化分析(源码) 在APP中能看到很多单车,但走到那里的时候,才发现车并不在那里.有些车不知道藏到了哪里:有些车或许是在高楼的后面,由于有GP ...

  4. blob的真实地址怎么获得_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址

    之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...

  5. python 抓取电脑界面_学会了Python,我的人生跟开挂一样

    当代职场年轻人的抑郁,有千百种. 一边是加不完的班.完不成的KPI.大把掉落的头发,一边是今年严峻的就业形势,职场人面临的工作压力可想而知. 忙碌的生活不仅磋磨了锐气,也让人觉得,自己仿佛永远没有真正 ...

  6. python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程

    如何利用Python抓取PDF中的某些内容 学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...

  7. python 爬取加密视频_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址

    之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...

  8. 电视剧《大秦赋》最近很火!于是我用Python抓取了“相关数据”,发现了这些秘密............

    前言 最近,最火的电视剧莫过于<大秦赋了>,自12月1日开播后,收获了不错的口碑.然而随着电视剧的跟新,该剧在网上引起了激烈的讨论,不仅口碑急剧下滑,颇有高开低走的趋势,同时该剧的评分也由 ...

  9. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?

    视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...

最新文章

  1. 网络推广外包专员浅析网络推广外包能否离开网站外链?
  2. 全球著名 CMS 产品大全
  3. ASP.NET页面刷新的几种实现方法
  4. html的混合标记,HTML XPath:提取与多个标签混合的文本?
  5. 《剑指offer》整数中1出现的次数(从1到n整数中1出现的次数)
  6. make: 警告:检测到时钟错误。您的创建可能是不完整的。
  7. 华为FreeBuds 3耳机更新推送:新增支持骨声纹识别特征
  8. python 3d绘图 汉字_完美解决Python matplotlib绘图时汉字显示不正常的问题
  9. bad response Not Found 404
  10. 阿里云服务器CPU100%问题
  11. 联想r720游戏模式不见了
  12. 电商网站后台九大功能模块详解
  13. 从“靠山吃山,靠水吃水”到守望“绿水青山”
  14. Appium工作日记:Message: An element could not be located on the page using the given search parameters.
  15. 牛顿法和高斯牛顿法对比
  16. 网络推广优化专员工作职责,网络推广专员工作内容
  17. 亚马逊、OZON、敦煌、MANO等跨境电商平台测评养号需要注意什么?
  18. 核函数和核矩阵【转】
  19. 迷你小包包成为时尚新宠,手掌包成为LV品牌潮流款式
  20. vmware设置共享文件夹

热门文章

  1. 安科瑞配电列头柜产品XXX数据中心案例分享
  2. ROSALIND答案——写在前面
  3. 什么是GIS,GIS能干什么
  4. WPF布局控件与子控件的HorizontalAlignment/VerticalAlignment属性之间的关系
  5. tplink里的DMZ主机是什么意思
  6. Apue学习:高级I/O
  7. 微软拥抱ChatGPT后,我亲自试了试新必应的个性搜索
  8. 华云数据打造企业社会责任践行范本
  9. 【北邮国院大三上】互联网协议_Internet Protocol_PART A
  10. 安装arosics做自动几何校正