python 爬取 全网代理 IP 网站

完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/IP

#!/usr/bin/env python
# -*- coding: utf-8 -*-from lxml import etree
import requestsdef spider():url = 'http://www.goubanjia.com/'headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'max-age=0','Connection': 'keep-alive','Cookie': 'UM_distinctid=168132a602e1aa-03790ea652ad7b-58422116-1fa400-168132a602f615; JSESSIONID=E0498A8975ACD4E859943603D02E58F4; CNZZDATA1253707717=1042893761-1546504875-null%7C1546581709','Host': 'www.goubanjia.com','Referer': 'http://www.goubanjia.com/','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',}res = requests.get(url=url, headers=headers)res.encoding = 'utf-8'html = etree.HTML(res.text)# 类型listtype = html.xpath("//td/a[@class='href' and contains(@title,'http')]/text()")# 假端口listfake_port_list = [i[5:] for i in html.xpath('//td[@class="ip"]/span[last()]/@class')]alpha = 'ABCDEFGHIZ'real_port = []for fake_port in fake_port_list:num = ''for i in fake_port:num += str(alpha.index(i))real_port.append(str(int(num) // 8))tds = html.xpath(".//table[@class='table table-hover']/tbody/tr/td[1]")# ip_list listip_list = []for td in tds:ip = "".join(td.xpath("./*[not(contains(@style,'none')) and not(contains(@class,'port'))]/text()"))ip_list.append(ip)# ip + portip_port = [i[0] + ':' + i[1] for i in list(zip(ip_list, real_port))]result = []for index in range(len(ip_port)):result.append({type[index]: ip_port[index]})print(result)if __name__ == '__main__':spider()

python 爬取 全网代理 IP 网站 + 破解端口加密混淆相关推荐

  1. Python 爬取可用代理 IP

    2019独角兽企业重金招聘Python工程师标准>>> 通常情况下爬虫超过一定频率或次数,对应的公网 IP 会被封掉,为了能稳定爬取大量数据,我们一般从淘宝购买大量代理ip,一般 1 ...

  2. python爬取快代理IP并测试IP的可用性

    用到的网站https://www.kuaidaili.com/,免费的IP很不稳定,随时会挂,有需求的还是购买付费IP比较稳 import requests from urllib import pa ...

  3. Python爬虫实战013:Python爬取免费代理ip

    import requests import time import random from lxml import etree from fake_useragent import UserAgen ...

  4. python ip动态代理_Python实现爬取可用代理IP

    Python实现爬取可用代理IP,在实现爬虫时,动态设置代理IP可以有效防止反爬虫,但对于普通爬虫初学者需要在代理网站上测试可用代理IP.由于手动测试过程相对比较繁琐,且重复无用过程故编写代码以实现动 ...

  5. Python爬虫:爬取免费代理ip

    之前写的几个爬虫都只能爬取到少量的信息,这是由于一个ip频繁地访问网站,会被认定为非正常的爬虫从而被屏蔽,这时候就需要使用代理ip来访问网站了,具体方法就是在发送request时添加一个proxy参数 ...

  6. 多线程爬取免费代理ip池 (给我爬)

    多线程爬取免费代理ip池 (给我爬) 文章目录 多线程爬取免费代理ip池 (给我爬) 安装的库 IP 隐藏 代理ip 多线程爬取 读入代理ip 写入代理ip 验证代理ip 解析网页得到代理ip 获取网 ...

  7. 爬取免费代理IP并测试

    爬取免费代理IP并测试 写在开头:这次总共爬了三个代理ip的网站,前两个网站经过测试,ip并不能访问我真正想爬的网站 Git仓库:https://gitee.com/jiangtongxueya/my ...

  8. 从入门到入土:基于Python爬取四川大学所有官方网站|狗头保命|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. python爬取免费优质IP归属地查询接口

    python爬取免费优质IP归属地查询接口 python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个 ...

  10. 简单爬虫-爬取免费代理ip

    环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import ...

最新文章

  1. 第十五届全国大学智能汽车提问回答问题 2020-8-9
  2. 【Groovy】map 集合 ( map 集合遍历 | 使用 map 集合的 each 方法遍历 map 集合 | 代码示例 )
  3. 逻辑网络拓扑与物理网络拓扑—Vecloud微云
  4. dat文件读取_微信dat文件如何查看
  5. [SPOJ375]QTREE - Query on a tree【树链剖分】
  6. 腾讯游戏学院专家分析:Unity在移动设备的GPU内存机制
  7. jquery通过ajax向后台发送(checkbox)数组,并在后台接收,(发送的数据是checkedbox)...
  8. c语言数码管流动显示一个数,51单片机数码管动态显示 - 数码管动态扫描显示01234567程序(三种方案)...
  9. java dataurl_FileReader生成图片dataurl的分析
  10. 马来游记(2)- 漂浮云顶间。。。
  11. NG-ZORRO 7.0.0 发布,Ant Design 的 Angular 实现
  12. 服务器虚拟盘怎么设置,服务器虚拟内存设置在什么盘
  13. VRay渲染器之家装户型渲染实战记录
  14. echarts文档解读
  15. 推荐微信小程序常用的几个UI组
  16. 转专业选择计算机的理由,转专业面试自我介绍范文
  17. 【Python】与或非的符号表示
  18. QT软件开发-基于FFMPEG设计视频播放器-流媒体播放器(五)
  19. c# Environment.GetCommandLineArgs
  20. 洛谷P4158 [SCOI2009]粉刷匠 题解

热门文章

  1. cass软件yy命令_南方CASS软件快捷命令大全,高手必备。。。
  2. SSM框架使用拦截器和过滤器实现登录的拦截
  3. 智能ABC输入法使用技巧
  4. 马哥2019python全套视频-马哥Python60集全套视频网盘链接免费分享
  5. cad单位_CAD标注样式如何转换公制和英制
  6. SNOWNLP情感分析报错解决
  7. Arcgis Android 定位
  8. 大麦盒子显示服务器超时,大麦盒子卡顿怎么办?这几个方法可以快速解决
  9. 【Unity3D插件】Exploder插件分享《物体爆炸效果插件》
  10. C# .NET 爬虫抓取京东商城所有商品分类