爬虫获取西刺免费高匿代理
#有些代理不能使用,使用前先写脚本筛选
import requests
from lxml import etree
import xlwt
import time
ip = xlwt.Workbook(encoding='utf-8')
sheet1 = ip.add_sheet('test1',cell_overwrite_ok=True)sheet1.write(0,0,"type")
sheet1.write(0,1,"address")
sheet1.write(0,2,"port")url = 'http://www.xicidaili.com/nn/'
user_agent = "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6)"
headers = {'User-Agent' : user_agent}
filepath = 'ip.xls'num = 0
for i in range(1,10):url = url + str(i)headers = [{'User-Agent' : user_agent},{'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'},{'Host': 'www.xicidaili.com'},{'Accept-Encoding': 'gzip, deflate'}]r = requests.get(url , headers = headers)time.sleep(5)print(num)data = etree.HTML(r.text)cnt = data.xpath('//tr[@class="odd"]')for i in cnt:num += 1address = i.xpath('.//td[2]/text()')[0]port = i.xpath('.//td[3]/text()')[0]Type = str(i.xpath('.//td[6]/text()')[0]).lower()sheet1.write(num,0,Type)sheet1.write(num,1,address)sheet1.write(num,2,port)cnt = data.xpath('//tr[@class=""]')for i in cnt:num +=1address = i.xpath('.//td[2]/text()')[0]port = i.xpath('.//td[3]/text()')[0]Type = str(i.xpath('.//td[6]/text()')[0]).lower()sheet1.write(num, 0, Type)sheet1.write(num, 1, address)sheet1.write(num, 2, port)print(num)
ip.save(filepath)
爬虫获取西刺免费高匿代理相关推荐
- Python爬取西刺国内高匿代理ip并验证
1.抓取ip存入文件 首先,我们访问西刺首页 http://www.xicidaili.com/,并点击国内高匿代理,如下图: 按 F12 检查网页元素或者 ctrl+u查看网页源代码: 我们需要提取 ...
- golang-proxy 具有性能评估功能的高性能免费高匿代理抓取
Golang-Proxy 项目地址: https://github.com/storyicon/golang-proxy Golang-Proxy – 简单高效的免费代理抓取工具通过抓取网络上公开的免 ...
- 爬虫(三):爬取西刺高匿代理
抓取西刺高匿代理,并验证IP的可用性,存储到本地文件中. 代码如下 # 导入模块 import requests import chardet import random from scrapy.se ...
- 西刺代理有效高匿代理爬取demo
1. 爬取西刺代理网站的国内高匿代理的IP地址和端口 2. 使用随机用户代理生成器 高匿代理:服务器只能发现代理的地址,但是发现不了你真实的IP地址 起始网页:https://www.xicidail ...
- 获取高匿代理ip的步骤思路
一.获取高匿代理IP思路 注意事项 做第二步之前你需要先找个地址url,用本机访问出来一个成功的页面,建议保留为html,作为后面使用,进行成功和禁用页面的对比,然后才可以高频访问此网站使你的电脑禁用 ...
- 获取高匿代理ip的步骤思路(推荐使用--刚找到的方法判断是否高匿)
文章目录 一.获取高匿代理IP思路 注意事项 2.(刚找到的,推荐这个)判断高匿代理ip的另外俩个方法 1.获取高匿的可用代理ip,可以用以下四个步骤(之前的笨方法): 二.实践. 1.获取代理ip, ...
- 获取高匿代理ip的想法思路
一.获取高匿代理IP思路 注意事项 做第二步之前你需要先找个地址url,用本机访问出来一个成功的页面,建议保留为html,作为后面使用,进行成功和禁用页面的对比,然后才可以高频访问此网站使你的电脑禁用 ...
- 【爬虫】 Squid 3.5.20 安装与配置 高匿代理
Squid 介绍 Squid是一个缓存internet数据的一个软件,它接收用户的下载申请,并自动处理所下载的数据.也就是说,当一个用户象要下载一个主页时,它向Squid发出一个申请,要Squid替它 ...
- 爬虫ip代理对高匿代理ip的重要性
对于爬虫来说,在听到ip代理的时候,听得最多的莫过于透明代理.匿名代理.高匿代理这几个词了,那么分别是什么意思呢?互相之间有什么样的区别呢? 为什么说爬虫ip代理一定要使用高匿代理呢? 带着这些问题, ...
最新文章
- c语言读h5文件,我利用C语言实现SHA-256算法,需要从一个txt文件中读出数据并把...
- HNSW nmslib
- 关于分页的一些经验。
- Angular tsconfig.json 文件里的 paths 用法和 scoped module 定义
- sparkstreaming监听hdfs目录_大数据系列之Spark Streaming接入Kafka数据
- pic单片机c语言读eeprom,PIC16F877单片机内部EEPROM读写实例
- 形态学滤波:(1)腐蚀与膨胀 (2)开运算,闭运算,形态学梯度,顶帽,黑帽...
- kvm虚拟机设置万兆网卡_kvm已经设置桥接网卡的虚拟机无法连接宿主机?
- CocoaLumberjack
- redis 中一个字段 修改map_Redis中bitmap的妙用
- 【理财】【学校财务信息管理系统】一卡通网络金融化
- java url json字符串_Java和PHP的JSON字符串转URL参数方法
- {ubuntu}乱七八糟重命名为1 2 3.....png
- Laravel框架介绍与简介
- 乐橙机器人的价格_乐橙育儿机器人app-大华乐橙机器人app(乐橙宝宝)下载V1.00.001-西西软件下载...
- 异步电机无差拍模型预测电流控制(MPCC)
- Ubuntu11.04下安装QQ2011
- 【TCP拥塞控制算法(TCP congestion control algorithm)学习笔记】
- 浅谈APP运营推广:该如何的精准投放广告?
- AndroidStudio输入生日计算星座
热门文章
- 圆桌会议 HDU - 1214
- 基于89C51单片机的智能小车——07.语音识别切换寻迹避障跟随并Oled显示
- 华大半导体HC32F4A0笔记(五),使用CMSIS-DSP库进行FFT运算
- IoTeX 对话 浙江大学Bithacks:当物联网遇上区块链
- 2023 华为 Datacom-HCIE 真题题库 02/12--含解析
- 用matplotlib.pyplot绘制甜甜圈图
- 【音视频开发】音频相关概念 - 总结
- yolov5 【v4.0】用自有数据集训练结果大比拼【5s,5m,5l,5x,5shpy】
- 【力扣周赛】第345场周赛
- Android必备:签名整理