步骤:

1.先把某个网页源码手动保存到本地一个文本文件;(暂时,以后想想怎么更加智能化)

2.利用正则表达式匹配html中的img 标签,并从分组中提取出链接并存为list;

3.下载图片到制定文件夹。

import re
import io
import urllib.request
str=[]
try:
    f = open(r'F:\\Python\\test.txt', 'r')
    str=f.read()
except IOError as e:
    print(e)
finally:
    f.close()
#print(str)
pa = re.compile(r'<img.*?src="(.*?\.(?:jpg|jpeg|gif|bmp|png))"')
photo_link=[]
obj=re.findall(pa,str)
img=[]
for x in range(0,len(obj)):
    print("第 %d 条图片连接:%s" %(x,obj[x]))
    response = urllib.request.urlopen(obj[x])
    img.append(response.read())
    with open(r'F:\\img\\%d.jpg' %(x+1), 'wb') as f:
        f.write(img[x])

尚待解决的问题:

1.html文件编码问题,以上程序得以运行,是因为直接手工复制网页源代码,并保存为文本文件,若直接从一个html文件中读取,尚未成功。

2.获得图片链接以后,如何进一步依据图片大小,原有html标签信息进行细化,存放入不同的文件目录,甚至数据库,还有待研究。

用正则表达式抓取网页图片相关推荐

  1. python抓取图片_Python3简单爬虫抓取网页图片

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...

  2. Python利用bs4批量抓取网页图片并下载保存至本地

    Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...

  3. 抓取网页图片的脚本(javascript)

    抓取网页图片的脚本(javascript) 本文地址: http://blog.csdn.net/caroline_wendy/article/details/24172223 脚本内容 (没有换行) ...

  4. php curl与正则表达式抓取网页数据的例子

    php使用curl和 正则表达式抓取网页数据示例,这里是抓取某网站的小说. 利用 curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说. 依赖项:curl 可以 ...

  5. php正则获取li,用正则表达式抓取网页中的ul 和 li标签中最终的值!

    获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1";       ...

  6. python简单好玩的代码_Python初学者好玩案例(一):最短的抓取网页图片代码,只有10行...

    这几天闲来无事,又研究了一下Python的基础内容,首先研究的是如何抓取网页数据.为什么把这篇作为初学者笔记呢?只是想让大家感受一下Python的强大的功能和简便的用法. 发现大神们通常在初级教程里就 ...

  7. Python多线程抓取网页图片地址

    mini-spider 功能描述: 多线程网络爬虫,爬取网页图片地址(也可提取其他特征的URL) 使用python开发一个迷你定向抓取器mini_spider.py,实现对种子链接的广度优先抓取,并把 ...

  8. 正则表达式抓取网页资源

    分享一个工具类,用户抓取网页上的图片.js.css等路径 传入 package lab2; import java.util.ArrayList; import java.util.List; imp ...

  9. 案例-抓取网页图片实现高效存图

    浙江法院公开网图片抓取.图片在HTML中的地址比较好获取(定位一张图片,右键-检查元素,右侧弹出的网页结构会自动定位到该图片的地址,可以看到该图片在HTML结构中的名称标签--img,地址标签-src ...

  10. python3多线程第三方库_Python之多线程爬虫抓取网页图片的示例代码

    目标 嗯,我们知道搜索或浏览网站时会有很多精美.漂亮的图片. 我们下载的时候,得鼠标一个个下载,而且还翻页. 那么,有没有一种方法,可以使用非人工方式自动识别并下载图片.美美哒. 那么请使用pytho ...

最新文章

  1. python 怎么将数组转为列表_图片转换成pdf格式怎么操作?什么软件能将图片转为pdf?...
  2. 关于c++ template的branching和Recursion的一段很好的描述
  3. 设计模式之工厂模式(Factory)(3)
  4. HarmonyOS之应用开发的电话服务与蜂窝网络
  5. 客户端的socket是否需要bind?
  6. 史蒂夫 乔布斯(Steve Jobs)在斯坦福大学2005年毕业典礼上的演讲
  7. Java学习笔记1:Java中有关print、println、printf的用法和区别
  8. javascript设计模式之发布订阅模式
  9. 引擎工具开发的一些总结
  10. 中英文停用词(stop word)列表
  11. Django url管理之include
  12. 基于java SSM框架的竞拍系统拍卖网设计
  13. CISSP考点拾遗——关于道德
  14. 京东发力团购欲摘桃 团购市场继续动荡
  15. 1-7-2 查询水果价格分数
  16. 信息流广告如何操作?一文搞懂!
  17. 虚拟机建Mac系统步骤
  18. SEM竞价|这5个方面重要性你理解透没有?
  19. 安装anaconda出现This Python interpreter is in a conda environment, but the environment has not been acti
  20. excel 导入导出使用poi自定义注解

热门文章

  1. Py||Is prime
  2. 使用GLSurfaceView实现涂鸦画板功能
  3. linux返回根目录的命令
  4. HCIE 数通资料下载 肖哥视频下载
  5. display:kms-panel-4.14kernel
  6. 入了giant FCR 3100,纪念一下!¥1800元
  7. 两个很重要的极限和夹逼准则
  8. openGPS.cn - 高精度IP定位原理,定位误差说明
  9. Python爬虫实现无限刷不背单词app的酷币!很有意思!
  10. 电影社交网络中Facemash女生评比算法讲解