用正则表达式抓取网页图片
步骤:
1.先把某个网页源码手动保存到本地一个文本文件;(暂时,以后想想怎么更加智能化)
2.利用正则表达式匹配html中的img 标签,并从分组中提取出链接并存为list;
3.下载图片到制定文件夹。
import re
import io
import urllib.request
str=[]
try:
f = open(r'F:\\Python\\test.txt', 'r')
str=f.read()
except IOError as e:
print(e)
finally:
f.close()
#print(str)
pa = re.compile(r'<img.*?src="(.*?\.(?:jpg|jpeg|gif|bmp|png))"')
photo_link=[]
obj=re.findall(pa,str)
img=[]
for x in range(0,len(obj)):
print("第 %d 条图片连接:%s" %(x,obj[x]))
response = urllib.request.urlopen(obj[x])
img.append(response.read())
with open(r'F:\\img\\%d.jpg' %(x+1), 'wb') as f:
f.write(img[x])
尚待解决的问题:
1.html文件编码问题,以上程序得以运行,是因为直接手工复制网页源代码,并保存为文本文件,若直接从一个html文件中读取,尚未成功。
2.获得图片链接以后,如何进一步依据图片大小,原有html标签信息进行细化,存放入不同的文件目录,甚至数据库,还有待研究。
用正则表达式抓取网页图片相关推荐
- python抓取图片_Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
- Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
- 抓取网页图片的脚本(javascript)
抓取网页图片的脚本(javascript) 本文地址: http://blog.csdn.net/caroline_wendy/article/details/24172223 脚本内容 (没有换行) ...
- php curl与正则表达式抓取网页数据的例子
php使用curl和 正则表达式抓取网页数据示例,这里是抓取某网站的小说. 利用 curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说. 依赖项:curl 可以 ...
- php正则获取li,用正则表达式抓取网页中的ul 和 li标签中最终的值!
获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1"; ...
- python简单好玩的代码_Python初学者好玩案例(一):最短的抓取网页图片代码,只有10行...
这几天闲来无事,又研究了一下Python的基础内容,首先研究的是如何抓取网页数据.为什么把这篇作为初学者笔记呢?只是想让大家感受一下Python的强大的功能和简便的用法. 发现大神们通常在初级教程里就 ...
- Python多线程抓取网页图片地址
mini-spider 功能描述: 多线程网络爬虫,爬取网页图片地址(也可提取其他特征的URL) 使用python开发一个迷你定向抓取器mini_spider.py,实现对种子链接的广度优先抓取,并把 ...
- 正则表达式抓取网页资源
分享一个工具类,用户抓取网页上的图片.js.css等路径 传入 package lab2; import java.util.ArrayList; import java.util.List; imp ...
- 案例-抓取网页图片实现高效存图
浙江法院公开网图片抓取.图片在HTML中的地址比较好获取(定位一张图片,右键-检查元素,右侧弹出的网页结构会自动定位到该图片的地址,可以看到该图片在HTML结构中的名称标签--img,地址标签-src ...
- python3多线程第三方库_Python之多线程爬虫抓取网页图片的示例代码
目标 嗯,我们知道搜索或浏览网站时会有很多精美.漂亮的图片. 我们下载的时候,得鼠标一个个下载,而且还翻页. 那么,有没有一种方法,可以使用非人工方式自动识别并下载图片.美美哒. 那么请使用pytho ...
最新文章
- python 怎么将数组转为列表_图片转换成pdf格式怎么操作?什么软件能将图片转为pdf?...
- 关于c++ template的branching和Recursion的一段很好的描述
- 设计模式之工厂模式(Factory)(3)
- HarmonyOS之应用开发的电话服务与蜂窝网络
- 客户端的socket是否需要bind?
- 史蒂夫 乔布斯(Steve Jobs)在斯坦福大学2005年毕业典礼上的演讲
- Java学习笔记1:Java中有关print、println、printf的用法和区别
- javascript设计模式之发布订阅模式
- 引擎工具开发的一些总结
- 中英文停用词(stop word)列表
- Django url管理之include
- 基于java SSM框架的竞拍系统拍卖网设计
- CISSP考点拾遗——关于道德
- 京东发力团购欲摘桃 团购市场继续动荡
- 1-7-2 查询水果价格分数
- 信息流广告如何操作?一文搞懂!
- 虚拟机建Mac系统步骤
- SEM竞价|这5个方面重要性你理解透没有?
- 安装anaconda出现This Python interpreter is in a conda environment, but the environment has not been acti
- excel 导入导出使用poi自定义注解