python 爬取 全网代理 IP 网站 + 破解端口加密混淆
python 爬取 全网代理 IP 网站
完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/IP
#!/usr/bin/env python
# -*- coding: utf-8 -*-from lxml import etree
import requestsdef spider():url = 'http://www.goubanjia.com/'headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'max-age=0','Connection': 'keep-alive','Cookie': 'UM_distinctid=168132a602e1aa-03790ea652ad7b-58422116-1fa400-168132a602f615; JSESSIONID=E0498A8975ACD4E859943603D02E58F4; CNZZDATA1253707717=1042893761-1546504875-null%7C1546581709','Host': 'www.goubanjia.com','Referer': 'http://www.goubanjia.com/','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',}res = requests.get(url=url, headers=headers)res.encoding = 'utf-8'html = etree.HTML(res.text)# 类型listtype = html.xpath("//td/a[@class='href' and contains(@title,'http')]/text()")# 假端口listfake_port_list = [i[5:] for i in html.xpath('//td[@class="ip"]/span[last()]/@class')]alpha = 'ABCDEFGHIZ'real_port = []for fake_port in fake_port_list:num = ''for i in fake_port:num += str(alpha.index(i))real_port.append(str(int(num) // 8))tds = html.xpath(".//table[@class='table table-hover']/tbody/tr/td[1]")# ip_list listip_list = []for td in tds:ip = "".join(td.xpath("./*[not(contains(@style,'none')) and not(contains(@class,'port'))]/text()"))ip_list.append(ip)# ip + portip_port = [i[0] + ':' + i[1] for i in list(zip(ip_list, real_port))]result = []for index in range(len(ip_port)):result.append({type[index]: ip_port[index]})print(result)if __name__ == '__main__':spider()
python 爬取 全网代理 IP 网站 + 破解端口加密混淆相关推荐
- Python 爬取可用代理 IP
2019独角兽企业重金招聘Python工程师标准>>> 通常情况下爬虫超过一定频率或次数,对应的公网 IP 会被封掉,为了能稳定爬取大量数据,我们一般从淘宝购买大量代理ip,一般 1 ...
- python爬取快代理IP并测试IP的可用性
用到的网站https://www.kuaidaili.com/,免费的IP很不稳定,随时会挂,有需求的还是购买付费IP比较稳 import requests from urllib import pa ...
- Python爬虫实战013:Python爬取免费代理ip
import requests import time import random from lxml import etree from fake_useragent import UserAgen ...
- python ip动态代理_Python实现爬取可用代理IP
Python实现爬取可用代理IP,在实现爬虫时,动态设置代理IP可以有效防止反爬虫,但对于普通爬虫初学者需要在代理网站上测试可用代理IP.由于手动测试过程相对比较繁琐,且重复无用过程故编写代码以实现动 ...
- Python爬虫:爬取免费代理ip
之前写的几个爬虫都只能爬取到少量的信息,这是由于一个ip频繁地访问网站,会被认定为非正常的爬虫从而被屏蔽,这时候就需要使用代理ip来访问网站了,具体方法就是在发送request时添加一个proxy参数 ...
- 多线程爬取免费代理ip池 (给我爬)
多线程爬取免费代理ip池 (给我爬) 文章目录 多线程爬取免费代理ip池 (给我爬) 安装的库 IP 隐藏 代理ip 多线程爬取 读入代理ip 写入代理ip 验证代理ip 解析网页得到代理ip 获取网 ...
- 爬取免费代理IP并测试
爬取免费代理IP并测试 写在开头:这次总共爬了三个代理ip的网站,前两个网站经过测试,ip并不能访问我真正想爬的网站 Git仓库:https://gitee.com/jiangtongxueya/my ...
- 从入门到入土:基于Python爬取四川大学所有官方网站|狗头保命|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口 python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个 ...
- 简单爬虫-爬取免费代理ip
环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import ...
最新文章
- 第十五届全国大学智能汽车提问回答问题 2020-8-9
- 【Groovy】map 集合 ( map 集合遍历 | 使用 map 集合的 each 方法遍历 map 集合 | 代码示例 )
- 逻辑网络拓扑与物理网络拓扑—Vecloud微云
- dat文件读取_微信dat文件如何查看
- [SPOJ375]QTREE - Query on a tree【树链剖分】
- 腾讯游戏学院专家分析:Unity在移动设备的GPU内存机制
- jquery通过ajax向后台发送(checkbox)数组,并在后台接收,(发送的数据是checkedbox)...
- c语言数码管流动显示一个数,51单片机数码管动态显示 - 数码管动态扫描显示01234567程序(三种方案)...
- java dataurl_FileReader生成图片dataurl的分析
- 马来游记(2)- 漂浮云顶间。。。
- NG-ZORRO 7.0.0 发布,Ant Design 的 Angular 实现
- 服务器虚拟盘怎么设置,服务器虚拟内存设置在什么盘
- VRay渲染器之家装户型渲染实战记录
- echarts文档解读
- 推荐微信小程序常用的几个UI组
- 转专业选择计算机的理由,转专业面试自我介绍范文
- 【Python】与或非的符号表示
- QT软件开发-基于FFMPEG设计视频播放器-流媒体播放器(五)
- c# Environment.GetCommandLineArgs
- 洛谷P4158 [SCOI2009]粉刷匠 题解