爬取代理ip并验证（快代理&西祠代理）

最近公司有些爬虫需求，有爬虫，就需要有代理IP池（为什么需要？自己想。），但是吧，只能用免费的，原因都懂，那来吧！

快代理：https://www.kuaidaili.com/free/inha/1/
西祠代理：http://www.xicidaili.com/nn/1/（我今天发现登不上，代码也贴上吧，赠人玫瑰，手有余香！）
快代理

快代理


# 快代理
import requests
from lxml import etree# 将能用的代理IP追加到文件
def write_proxy(proxies):print(proxies)for proxy in proxies:with open("./1688-data/ip_proxy.txt", 'a+') as f:print("正在写入：", proxy)f.write(proxy + '\n')print("录入完成！！！")# 解析网页，并得到网页中的代理IP
def get_proxy(html):selector = etree.HTML(html)proxies = []for each in selector.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')[1:]:# ip.append(each[0])ip = each.xpath("./td[1]/text()")[0]port = each.xpath("./td[2]/text()")[0]proxy = ip + ":" + portproxies.append(proxy)print(len(proxies))test_proxies(proxies)# 验证已得到IP的可用性
def test_proxies(proxies):proxies = proxiesurl = "https://www.1688.com/"header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",}normal_proxies = []count = 1for proxy in proxies:print("第%s个。。" % count)count += 1try:response = requests.get(url, headers=header, proxies={"http": proxy}, timeout=1)time = response.elapsed.total_seconds()print(time)if response.status_code == 200:print("该代理IP可用：", proxy)normal_proxies.append(proxy)else:print("该代理IP不可用：", proxy)except Exception:print("该代理IP无效：", proxy)passwrite_proxy(normal_proxies)#营造请求头，获取网页相应
def get_html(url):header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",}response = requests.get(url,headers=header,)# print(response.text)get_proxy(response.text)if __name__ == "__main__":base_url = "https://www.kuaidaili.com/free/inha/%s/"for i in range(1, 4):url = base_url % iget_html(url)

西祠代理

把 get_proxy(html)方法自己换一下，要是懒自己换一下XPATH

# 解析网页，并得到网页中的代理IP
def get_proxy(html):selector = etree.HTML(html)proxies = []for each in selector.xpath('//table[@id="ip_list"]/tr')[1:]:# ip.append(each[0])ip = each.xpath("./td[2]/text()")[0]port = each.xpath("./td[3]/text()")[0]proxy = ip + ":" + portproxies.append(proxy)print(len(proxies))test_proxies(proxies)

如果那天不管用了，换下get_proxy(html)方法中的XPATH路径应该就可以。（网站优化的话，就听天由命吧，good luck！）

对了，部分代码是参考一位老哥的，连接找不到了，老哥你要是看到了联系我，我加上参考连接！

python requests 爬取代理ip并验证（快代理西祠代理）相关推荐

python requests 爬取数据
python requests 爬取数据 import requests from lxml import etree import time import pymysql import json h ...
python爬取百度搜索_使用Python + requests爬取百度搜索页面
想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页首先爬取百度主页www.baidu.com import r ...
Python爬虫-爬取常用IP代理
引入包 import requests from bs4 import BeautifulSoup import re 爬取proxy360 def IPspider1():response = re ...
python+requests+ 爬取官网双色球开奖数据
python+requests+mysql 爬取官网双色球开奖数据分析网页数据获取方式第一种查询方式第二种查询方式完整代码分析网页数据获取方式第一种查询方式在官网上可以找到多种数据查询 ...
Python requests爬取淘宝商品信息
作者:achen 联系方式:wh909077093 这里记一下大概的思路以及实现方法,有基础的小伙伴看了基本就能实现了,如果有业务需要可以联系我哈哈哈哈哈哈本文代码参考猪哥66的思路项目内容指定 ...
Python requests爬取美桌壁纸之可爱小狗狗
爬取美桌壁纸之可爱小狗狗最近在学爬虫,用课堂案例来巩固下学习内容,爬取的是美桌壁纸. 爬取第一页每个跳转链接的第一个图片以下是首页面跳转的页面: import requests from lxm ...
Python大佬爬取了10亿票房的《西虹市首富》热评，一起来解读吧！
回复"书籍"即可获赠Python从入门到进阶共10本电子书公众号: python教程入门学习前言纵观近几年的国产电影市场,"开心麻花"似乎已经成为了票房的 ...
使用python requests 爬取妹子图网站图片
import requests import os import re# 封面图http://mm.chinasareview.com/wp-content/uploads/2017a/07/04/l ...
python爬取汽车之家图片,Python requests 爬取汽车之家全部品牌logo，urllib下载到本地...
首先是汽车之家品牌页面的HTML 我们定位到图片那个位置,这个img标签的src加上https就是图片完整的地址那么品牌名称就是下面那个p标签的text 接下来我们的目的就是从中取出src和text ...
Python requests 爬取汽车之家全部品牌logo，urllib下载到本地
首先是汽车之家品牌页面的HTML 我们定位到图片那个位置,这个img标签的src加上https就是图片完整的地址那么品牌名称就是下面那个p标签的text 接下来我们的目的就是从中取出src和text ...

python requests 爬取代理ip并验证（快代理西祠代理）

爬取代理ip并验证（快代理&西祠代理）

快代理

快代理

西祠代理

如果那天不管用了，换下get_proxy(html)方法中的XPATH路径应该就可以。（网站优化的话，就听天由命吧，good luck！）

对了，部分代码是参考一位老哥的，连接找不到了，老哥你要是看到了联系我，我加上参考连接！

python requests 爬取代理ip并验证（快代理西祠代理）相关推荐

最新文章

热门文章