python爬虫保存图片到指定文件夹_李亚涛:python抓取某房源户型图并自动保存到文件夹...
大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中。
大概的思路是:
1、获取网页源代码
2、获取图片地址与房源名称
3、在当前目录,建立一个文件夹,以房源名称命名
4、保存图片并简单对图片进行重命名
以下是全部代码:
#coding:utf8
#python抓取网页图片并保存到本地电脑
import urllib2,re,os,time,sys,urllib
def save_img(url):
reload(sys)
sys.setdefaultencoding('utf8')
html=urllib2.urlopen(url).read()#获取网页源代码
name=re.findall('【(.*?)户型图_长沙.*?房型图_小区照片_相册',html)[0] #获取小区名称,为了下面建立一个文件夹做准备
img_list_url=re.findall('data-index="\d+" src="(.*?)" />',html) #获取所有需要图片URL
cur_path=os.path.abspath(os.curdir) #获取当前目录
glal_path=cur_path+'\\'+name.encode('gbk') #当前目录 name名称连接 生成一个 新的路径 比如 :E:\python\test\某某小区
os.mkdir(glal_path) #创建一个文件夹
i=1 #定义一个i=1
for img_url in img_list_url:
urllib.urlretrieve(img_url,glal_path+'\\'+'%s.jpg'%str(i)) #保存图片,img_url是图片地址 后面参数是路径与重新命名的图片名称
i=i+1
if __name__ == '__main__':
url="xxx" #房源详情URL地址
save_img(url)
代码只是演示举例,实现功能,具体不同网站匹配规则可能不同。
url地址就不公开了,我用xxx代替了,就不公开了,大家只是学习方法就可以,给大家一下看一下运行效果如下:
大家可以看到运行之后,生成了一个文件夹保利麓谷林语并且保存了8张图片,再发张截图如下:
好了,今天就分享这里,你学会了吗?
李亚涛简介-一个没有才华的python程序员,关注我学习更多python知识
python爬虫保存图片到指定文件夹_李亚涛:python抓取某房源户型图并自动保存到文件夹...相关推荐
- 李亚涛:python抓取某房源户型图并自动保存到文件夹
大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...
- python中文件分类_李亚涛:python实现电脑文件一键分类
原标题:李亚涛:python实现电脑文件一键分类 python还挺好玩的,可以做蛮多事情! 比如桌面非常非常多的文件,想要整理一下,也可以用到python 比如我就自己写了个程序,整理文件就是运行一下 ...
- python网页编程测试_李亚涛:python编写友情链接检测工具
原标题:李亚涛:python编写友情链接检测工具 友情链接是网站外链的非常重要的来源,作为一个网站运营推广人员,需要定期对网站的友链进行更新与检查,如果有人下掉你的链接,这样你可以及时的检测并清除掉. ...
- python 批量查询网页导出结果_李亚涛:python批量查询网页收录情况并计算收录率...
想要一个关键词有排名 第一件事就是保证有一个页面布局了这个关键词,而且这个页面已经被收录了. 所以,我们网站在更新一些信息的时候,比如发布资讯,如果没有被收录,那就无法获得排名,也就没办法带来流量. ...
- python网页优化_李亚涛:python辅助seo优化让你更轻松
原标题:李亚涛:python辅助seo优化让你更轻松 一个专业的seo其实要学习非常多的知识点,因为SEO涉及的东西比较多: 学习seo要掌握哪些技能呢? 之前我写过一篇文章有给大家介绍:0基础学SE ...
- html 换行_李亚涛:清除HTML所有格式并且删除换行与回车,只显示文本
大家好,之前我在写程序的时候遇到一个需求,就是获取到一段源代码 然后需要把这段源代码只显示文本,其他HTML代码全部清楚掉. 这种我们应该怎么办呢? 以下是我个人的方法,代码如下: #coding:u ...
- python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享
这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...
- python爬虫有学c的必要吗_可以一边学python爬虫一边学c语言吗?
数据结2113构和算法并不是一门语言,你可以说有了Python 不用5261学C或者4102C++了,但是不能说不需要学数据结构了,因为它是所有语1653言的基础.看你学Python的用途,如果你学P ...
- Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
最新文章
- MetaQuast:评估宏基因组拼接
- 生物系统和疾病的多组学数据整合考虑和研究设计
- 打开c语言运行不了_手机上有哪些不错的c语言编程软件?
- antv图例出现分页_2020,贴地飞行的 AntV 设计
- AXI4总线协议的发展历史
- @SessionAttributes 和 @SessionAttribute的区别
- 龙芯下中标系统C语言查找设备号_龙芯:主控进驻国产激光打印机并适配麒麟OS...
- Multi-thread--C++11中std::lock_guard的使用
- 虚拟服务器e,虚拟主机服务器E
- Oracle表分区大全
- linux下find命令-atime,-ctime,-mtime真正含义
- dsp java_GitHub - GrayOxygen/JavaDsp: 数字信号处理(DSP)方面的Java封装,包含常用的一些处理方法,如滤波、信号变换等等。...
- # 研究杂感 × VOSviewer(第四辑)
- 全国计算机将文件属性隐藏,一键玩转隐藏属性文件
- 个人号微信SCRM客服系统功能介绍
- 《孙子兵法》对现代战争还适用吗?为什么?
- HDFS开启HA后,Hbase的REGIONSERVERS启动错误(Operation category READ is not supported in state standby)
- 前序、中序、后序表达式
- 【ACWing】658. 一元二次方程公式
- 计算机小学数学辅助教学缺点及对策 论文,小学计算机辅助教学论文
热门文章
- 程序员职业生涯全攻略,附神级跳槽攻略图
- Linux的top命令
- Linux的phpize添加php扩展
- mysql administrator 备份 表_【转】如何使用 MySQL Administrator 管理/备份/还原 My SQL 数据库...
- iis只能访问html页面,win2003 IIS6,能访问html页 但是不能访问aspx页解决办法汇总
- 我在大学主修计算机 英语,托福雅思英语: 我在大学主修计算机
- java 数组排序论文_Java 7是否对方法Arrays.Sort使用Tim Sort?
- 对话框绘制完成消息_Word小技巧-一分钟教会你快速绘制组织架构图
- strrchr php,php strstr() strrchr() strpos() strrpos()函数_PHP教程
- 【日期、时间】javascript字符串转日期类型