python批量访问网页保存结果_Python检测批量URL状态,并将返回正常的URL保存文件...
-- coding: UTF-8 --
#author == huangyishan
import os
import sys
import urllib2
urls = sys.argv[1] #从程序外部调用参数,0即程序本身
result = list()
def check_url_status():
f = open(urls,‘r‘) #以读方式打开文件
for line in f.readlines(): #依次读取每行
line = line.strip() #去掉每行头尾空白
if len(line) !=0:
if line[0:7]==‘http://‘ or line[0:8]==‘https://‘:
pass
else:
line=‘http://‘+line
print line
try:
#response = urllib2.urlopen(line,timeout=4)
status = urllib2.urlopen(line,timeout=4).code
#print response
print status
result.append(line)
open(‘url_ok.txt‘, ‘w‘).write(‘%s‘ % ‘\n‘.join(result)) #保存入结果文件
except urllib2.HTTPError, e:
print e.code
with open(‘url_notok.txt‘, ‘w‘) as f: #保存入结果文件
f.write(line + ‘ : ‘ + str(e.code) + ‘\n‘)
except:
print "error"
with open(‘url_notok.txt‘, ‘a‘) as f: #保存入结果文件
f.write(line + ‘ : ‘ + ‘error‘ + ‘\n‘)
if name == ‘main‘:
check_url_status()
原文地址:http://blog.51cto.com/linuxpython/2105821
python批量访问网页保存结果_Python检测批量URL状态,并将返回正常的URL保存文件...相关推荐
- python批量访问网页保存结果_Python静态网页爬取:批量获取高清壁
前言 在设计爬虫项目的时候,首先要在脑内明确人工浏览页面获得图片时的步骤 一般地,我们去网上批量打开壁纸的时候一般操作如下: 1.打开壁纸网页 2.单击壁纸图(打开指定壁纸的页面) 3.选择分辨率(我 ...
- python 批量查询网页导出结果_python批量查询网页的HTTP状态码
最近业余时间在改版一个网站,改版之前频繁调整了一些栏目的属性,包括栏目的层级,这种最怕就是调整了栏目的从属关系,导致了栏目的URL地址改变,一旦改版就导致整个栏目及其下面的文章页地址变更,成为死链.而 ...
- python 批量打开网页并截图_Python静态网页爬取:批量获取高清壁纸
前言 在设计爬虫项目的时候,首先要在脑内明确人工浏览页面获得图片时的步骤 一般地,我们去网上批量打开壁纸的时候一般操作如下: 1.打开壁纸网页 2.单击壁纸图(打开指定壁纸的页面) 3.选择分辨率(我 ...
- python 批量查询网页导出结果_python导出网页数据到excel表格-如何使用python将大量数据导出到Excel中的小技巧...
如何用python把返回的html提取相应的内容到excel 下载扩展库 xlrd 读excle xlwt 写excle 直百度上搜就能下载 下载后使用 import xlrd 就读excle了 打开 ...
- python自带网页解析器_Python爬虫Chrome网页解析工具-XPath Helper
之前就说过Python爬虫中Xpath的用法,相信每一个写爬虫.或者是做网页分析的人,都会因为在定位.获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定 ...
- python可以做网页开发么_Python可以开发网页吗?Python学习班
在很多人的印象中,Python是无所不能的,那么Python可以开发网页吗?有什么好用的框架呢?我们一起来看看吧. Python由荷兰数学和计算机科学研究学会的Guido van Rossum 于19 ...
- python批量访问网页保存结果_Python爬虫(批量爬取某网站图片)
1.需要用到的库有: Requests re os time 如果没有安装的请自己安装一下,pycharm中打开终端输入命令就可以安装 2.IDE : pycharm 3.python 版本: 3.8 ...
- python自动访问网页_Python自动化 selenium 网页自动化-在访问一个网页时弹出的浏览器窗口,我该如何处理?...
相信大家在使用selenium做网页自动化时,会遇到如下这样的一个场景: 在你使用get访问某一个网址时,会在页面中弹出如上图所示的弹出框. 首先想到是利用Alert类来处理它. 然而,很不幸,Ale ...
- python 批量打开网页并截图_Python自动截图html页面
需求:实现自动截图html页面: 准备: 1.安装selenium 1)pip install selenium 2) 通过pycharm解释器图形化安装 File->settings-> ...
最新文章
- Android列表控件选项中添加进度框ProgressBar实现
- numpy 修改数据类型
- 数字谋定农村建设-农业大健康·万祥军:农业人工智能应用
- c++ 数字后加f_c.4 计算摄氏温度
- php 连接sap rfc 乱码,[RFC] sap rfc调用时判断连接状态
- RUP和IPD流程的优缺点
- 园子是技术的园子吗?
- 【网络】半双工和全双工
- 基于国产密码算法的开源OpenSSL密码库
- 怎么下载全国水系图层
- 4170万元人民币的 绿坝 花季护航 预装1年软件,到底值不值
- macOs 10.12.2总于修复鼠标驱动了
- modbus模拟器使用
- 持刀男子也地级市小女子背景
- 给我5分钟,手把手带你学会定时任务!
- Java设计模式8,校验、审批流程改善神器,责任链模式
- CentOS 因为 Redis 导致关机异常慢问题解决方法
- JS判断是否IE浏览器
- ORCAD软件技巧【ORCAD,PADS,ALTIUM相互转换】[orcad关闭start page][OrCAD导入EDF元件原理图符号流程]
- 液压机的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
热门文章
- 基于pjsip实现p2p语音对讲
- 学成在线--18.新增课程(课程分类查询)
- python获取window共享目录列表_利用Python获取DICOM RTstructure勾画列表
- js中加载指定的html代码,在js或JQuery中怎样判断页面html代码中含有指定名称的div元素...
- 装机之MBR和GPT
- html如何设置滑轮效果,HTML中鼠标滚轮事件onmousewheel处理
- python发展历程
- Python基础总结之常用内置方法总结
- beeline连接hiveserver2报错:User: root is not allowed to impersonate root
- SparkRDD常用算子实践(附运行效果图)