使用Python自动获取可用代理列表
今天闲来无事,随便写的一个从代理发布网站上提取可用代理列表的脚本。
运行后,可以获取http://cn-proxy.com/发布的可用代理ip和端口的列表。
运行效果如下:
源代码如下,请指教:
# -*- coding: utf-8 -*-
# Python: 2.7.8
# Platform: Windows
# Author: wucl
# Program: 从代理网站获取可用代理
# History: 2015.6.11import urllib2, re
from bs4 import BeautifulSoupdef get_proxies(url):"""从代理网站获取可用代理ip地址列表并返回"""resp = urllib2.urlopen(url)html = resp.read()soup = BeautifulSoup(html)contents = soup.find_all('tr')regex = re.compile('\d+')proxies = []for each in contents:sock = each.find_all('td')if sock:ip = sock[0].textport = sock[1].textif re.findall(regex, ip):proxy = '%s:%s' %(ip, port)proxies.append(proxy)return proxiesif __name__ == '__main__':url = 'http://cn-proxy.com/'proxies = get_proxies(url)print proxies
使用Python自动获取可用代理列表相关推荐
- python扫描proxy并获取可用代理ip列表
mac或linux下可以work的代码如下: # coding=utf-8import requests import re from bs4 import BeautifulSoup as bs i ...
- Python 抓取可用代理IP
问题描述 在做数据抓取的时候,经常会碰到有些网站对同一IP的访问频率做限制.遇到这种情况一般只有两种解决方案: 降低抓取频率.这种方法在数据变化不频繁,数据量不大的情况下还好,但是,如果数据变化频繁或 ...
- python自动获取微信公众号最新文章
微信公众号获取思路 常用的微信公众号文章获取方法有搜狐.微信公众号主页获取和api接口等多个方法. 听说搜狐最近不怎么好用了,之前用的api接口也频繁维护,所以用了微信公众平台来进行数据爬取. 首先登 ...
- python 如何获取数组(列表)长度? len()
获取单维列表或单维numpy数组的长度 1)单维列表 list1 = [1, 2, 3, 4, 5] print(len(list1)) # 5 2)单维numpy数组 array1 = np.arr ...
- Python自动获取Redi缓存验证码
最近做UI自动化测试,登录是需要进行短信验证码验证,和开发聊了聊思路,就开始着手实施 打开cmd 安装redis库 pip install redis 安装完成后,开始写代码,因为是测试环境,Redi ...
- Python自动获取邮箱验证码【上集】
本文阅读时长:3-5min 声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 前置:Google IMAP协议设置 与 专用密码设置 本次教程为自动获取邮箱验证码实 ...
- Python自动获取QQ群消息
由于WebQQ关闭了,无法通过webQQ来自动的获取QQ中的消息,故采用模拟人查看消息的操作方式来实现自动获取消息.通过调用win32实现窗口监听,找到需要获取的消息窗口句柄,再通过模拟Ctrl+C和 ...
- python自动获取cookie_selenium3+python自动化12-cookie相关操作(获取和删除)
前言 在进行接口测试或者自动化测试时,有时就要登录好多次,特别麻烦,那能不能不要一遍一遍输入账号,直接跳过登录页面进行操作.这个时候就要用到cookie,这次主要整理cookie的一些操作,包含获取c ...
- python自动获取号码归属地_Python批量获取并保存手机号归属地和运营商的示例
从Excel读取一组手机号码,批量查询该手机号码的运营商和归属地,并将其追加到该记录的末尾.SAb免费资源网 import requests import json import xlrd from ...
最新文章
- 小波的秘密10_图像处理应用:图像增强
- JVM笔记(一)数字在JVM中的表示
- 本地计算机无法启动,winxp系统下本地计算机无法启动Windows Time服务怎么办
- linux下解压7z压缩包分卷
- python编程入门课 视频-Python入门到精通视频教程下载[21课程全]
- Java权限管理系统源代码下载
- 如何在safri查看网页源代码
- 解决git:fatal:Unable to create”…/.git/index.lock” 的错误
- 第三章:Servlet基础
- 5个视频素材网站推荐
- python ogr创建shp
- 在架构师眼里,一份美团外卖是如何做出来的?
- C语言编辑时光标一直闪,win7系统编辑文字鼠标光标一直闪烁问题的解决方法 - win7吧...
- win10 eclipse适配笔记本4K屏幕
- reshape2包的基本用法(melt及cast)
- 会话层,表示层和应用层
- 如何使用Latex完成标题,摘要,关键词,图片插入,数学公式插入,表格插入等等
- aix修改日志服务器,配置aix将audit日志发送syslog服务器
- A3双面折页打印文件
- AB罗克韦尔的PLC标签MQTT协议JSON格式发布与订阅-智能网关设置
热门文章
- 计算机视觉技术军事应用,机器视觉技术军事应用文献综述-兵工自动化.PDF
- 港科科研|香港科大邵敏华教授带领团队研发全球最耐久的氢燃料电池有助推动绿色能源普及化...
- gamechannel.exe
- 了解EOS超级节点,这篇文章就够了
- Selenium 实现下载文件 Firefox,Chrome
- Java 动态修改m3u8地址播放
- 记录生活:绩优票之皖维高新
- 蓝桥杯 历届试题 高僧斗法(Nim博弈)
- echarts的X轴文字倾斜显示、竖向显示、上下错开显示
- 河南省天一大联考2021高考成绩查询,河南省2019天一大联考高三五联H成绩新鲜出炉,本科分数线公布!...