python获取已打开的网页内容_用Python获取网页数据
# -coding: utf-8
imoprt urllib2
import urllib
import re
# 填写需要采集的网址
urlPath = '
# 设置网页头部信息,模拟浏览器
headers = {'User-Agent' : agent, 'Accept' : '*/*', 'Referer' : 'http://www.google.com'}
# 打开网页,并读取网页源码
request = urllib2.Request(urlPath, headers=headers)
response = urllib2.urlopen(request)
html = response.read()
# 构建图片标签正则表达式
img=re.compile(r"""""",re.I)
# 保存的图片名称和路径,需要自己设置
path = '~/Code/Python/img_splider/'
try:
# 使用正则匹配出所有的img标签
img_list = re.findAll(img, html)
# 遍历得到的所有标签,然后进行下载
for i in xrange(length(img_list)):
# 使用urllib读取打开图片
data = urllib.urlopen(img_list[i]).read()
# 保存图片的格式为jpeg,需要自己看
imgStr = path + str(i) + '.jpeg'
# 打印出图片的url
print imgStr
# 创建文件
f = file(imgStr, 'wb')
# 写入图片
f.write(data)
# 关闭文件流
f.close()
except Exception, e:
print 'error'
以前写了很多关于爬虫的文章,在博客上面,www.scienceswork.com,可以参考一下。一起学习,上面的代码可以先试下,不行的话在调试
python获取已打开的网页内容_用Python获取网页数据相关推荐
- python控制已经打开的浏览器_使用python+selenium控制手工已打开的浏览器
我们可以利用Chrome DevTools协议.它允许客户检查和调试Chrome浏览器. 打开cmd,在命令行中输入命令: chrome.exe --remote-debugging-port=922 ...
- python恶搞代码打开对方摄像头_用Python获取摄像头并实时控制人脸的实现示例
实现流程 从摄像头获取视频流,并转换为一帧一帧的图像,然后将图像信息传递给opencv这个工具库处理,返回灰度图像(就像你使用本地静态图片一样) 程序启动后,根据监听器信息,使用一个while循环,不 ...
- python解压打开文件过多_让Python在后台自动解压各种压缩文件!
一.需求描述 编写一个Python程序,每次下载压缩包形式的文件后,自动将内部文件解压到当前文件夹后将压缩包删除,通过本案例可以学到的知识点: os 模块综合应用 glob 模块综合应用 利用 gzi ...
- python文件只读打开模式是_在Python中将文件更改为只读模式
I am writing a data processing code, in which I create a new file, write processed data in to this f ...
- python中如何打开csv文件_在Python中从CSV文件读取数据
我正在从包含以下数据的CSV文件(xyz.CSV)中读取数据: col1,col2,col3,col4 name1,empId1,241682-27638-USD-CIGGNT ,1 name2,em ...
- python解压打开文件过多_在python中使用zipfile压缩文件时层级很多,有很多层目录...
如下图本来只压缩一个文件结果这个文件所在的路径全都被压缩进去啦 下面是解决方法yadir='D:/databak/' zipfilepath='D:/zipfile.zip' filelists = ...
- python安装launcher要选吗_安装 Python 这么多次,到底装了啥
这个选项既然如此重要,为什么安装包不把它作为默认勾选状态呢? 细心点的小伙伴还会注意到,在它上面还有个选项: Install launcher for all users(recommended) 不 ...
- python接管已经打开ie浏览器_使用selenium控制(接管)已打开的浏览器(chrome),并通过WebDriver值检测...
在使用selenium进行自动化测试中我们有时会遇到这样的情况: 我们需要手动打开浏览器,进入到所需的页面,执行一些手动任务,如输入表单.输入验证码,登陆成功后,然后再开始运行自动化脚本. 这种情况下 ...
- python遍历文本文件统计字符个数_用python获取txt文件中关键字的数量
缘起: 开发人员需要tomcat中一个项目在一个月的访问请求量,因其他原因只剩下查找tomcat请求日志的方法获取,刚好最近在学习python,于是就用python摸索了下: 大体思路: 1.把相应t ...
- oracle数据如何获取游标中动态字段_原来Python自带了数据库,用起来真方便!
Python大数据分析 记录 分享 成长 Python作为数据科学主流语言,被广泛用于数据读存.处理.分析.建模,可以说是无所不能. 数据一般存放在本地文件或者数据库里,之前介绍过如何使用py ...
最新文章
- Android中Context 的理解
- python绘制条形图-python matplotlib库绘制条形图练习题
- 骰子的妙用---课堂答题
- 用计算机写文章 单元备课,信息技术第一单元单元备课精要.doc
- tmc4361 闭环_TMC4361A-LA
- 查找最接近的元素c语言,查找最接近的元素
- Android.mk转换到Android.bp方法
- Error building Player: UnityException: Bundle Identifier has not been set up correctly
- ​手机APP应用软件开发
- 【C语言】牛顿切线公式计算 a 的立方根 02
- json解析小冒号:出错
- 011_GoldWave软件安装及使用
- 推荐几个做自媒体好用的电影素材网站
- KingbaseES的表空间
- rgb sw 线主板接口在哪_自带RGB风扇,支持神光同步的九州风神小堡垒120I水冷散热器...
- 阿里云安装nacos
- Linux共享打印机手机打印,[分享]让linux和linux之间共享打印机
- 基于FPGA的简易DDS信号发生器的设计(一)
- 滴滴上马单车业务 摩拜ofo进军大出行
- IDC评述网:12月上旬全球域名解析服务商Top15