[脚本收集]提取Tripntale图片
自从上次从国家地理上取得图片之后,我又产生新的想法:要从Tripntale上取得照片.Tripntale是一个很不错网络相册,尤其是对那些比较喜欢旅游的同志。
按照之前在提取国家地理照片的思路:
1. 轮询每个照片的网页
Tripntale的相册目录结构是http://www.tripntale.com/pic/8238/424541,其中8343代表某个相册的ID,429749是该相册下照片的ID,可能的难点是这个相册下的ID有可能不是持续递增的。而试图去访问一个该相册不存在的ID的时候,会自动跳转回该相册,即http://www.tripntale.com/trip/8238。这里主要用到的是urllib2模块的urlopen方法得到页面的response。
page = urllib2.urlopen("http://www.tripntale.com/pic/8238/424541")
response = page.read()
2. 通过研究图片的属性,写出合适的正则表达式。
通过研究上面的图片,我们得到实际图片的html代码是:
<img src="http://s3.amazonaws.com/img.tnt/mk6gRUUpU0uRvkf9oetwswss/9tuVbgapCECOY5xtdppvUQss_l.JPG"
id="ctl00_RightContent_imageHolder"
border="0"
alt="Church in Adare" />
在这里,除了src的内容和alt的内容外,其他都是固定的,我们不关心alt的内容,所以只要专注在怎么匹配src上。
这里提供的正则表达式是:imgre = '.*s3.amazonaws.com/img\\.tnt.*/(.+?)\".*ctl00_RightContent_imageHolder.*'
3. 利用re模块的findall,得到图片的名称
result = re.findall(imgre, response, re.S)
print result
4. 保存图片到本地
这里要用到urllib模块的urlretrieve方法
[脚本收集]提取Tripntale图片相关推荐
- C++编写爬虫脚本爬取网站图片
C++编写爬虫脚本爬取网站图片 整体代码设计思路 具体功能实现 初始化网络库 url中爬取图片 获取网页源代码 连接主机 url中获取主机名和文件名 html中提取连接 html中提取图片链接 获取并 ...
- 法发〔2016〕22号《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》
文号:法发[2016]22号 全部标题:最高人民法院最高人民检察院公安部印发<关于办理刑事案件收集提取和审查判断电子数据若干问题的规定>的通知 发文时间:2016年9月9日 来源:最高人民 ...
- WebView与JS的那些事:注入JS提取页面图片
上一篇博文中,我们大概了解了js与webview的一些交互,然而,在我们实际的应用中,更倾向于在android端对网页做一些处理,今天带给大家的是往页面注入JS脚本,提取页面上的图片,然后通过另一个A ...
- Tips--利用shell脚本批量提取txt文件中任意字段
利用shell脚本批量提取txt文件中任意字段 前言 0. 一个例子 1. cat命令 2. '|'符号与'>'符号 3. grep命令 4. awk命令 前言 对于测试中出现的log,我们经常 ...
- 如何将视频的每一帧提取成图片
关于如何将视频的每一帧提取成图片 有时候我们需要将视频按帧提取出来,但是一个普通的24帧的视频每秒就有24张图片,一分钟的视频就有1440张图片,如果一帧一帧的截取,那无疑十分的浪费时间,而且如何按帧 ...
- Praat脚本-022 | 提取时长和音强
目录 引题 操作解释 运行脚本 获取脚本 关注 版权说明 引题 提取基频Praat脚本-009 | 提取时长和基频,提取共振峰Praat脚本-010 | 提取时长和共振峰,提取音强,这大概是最常用的三 ...
- python自动化提取pdf表格_[Python] 自动化办公 多种提取PDF图片的方法
转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒) 若公众号内转载请联系公众号:早起Python 这篇文章能学到的主要内容: 基于 fitz 库和正则搜索提取图片 基 ...
- Python脚本批量重命名图片
Python脚本批量重命名图片 # -*- coding: utf-8 -*- """ Created on Tue Mar 23 13:34:59 2021@autho ...
- Springboot使用pdfbox提取PDF图片
Springboot使用pdfbox提取PDF图片 PDFBox的介绍 Springboot集成PDFBox 一.提取pdf首页为图像 1. 实现需求 2. 项目代码 3. 执行结果 二.将pdf内容 ...
最新文章
- 重启nagios有异常提示Starting nagios:This account is currently not available
- 汇编伪指令EVEN(数据对齐的伪指令,使得下一个变量的起始地址是偶数字节的)
- SQL 列转行、行转列 - 使用sqlite演示
- 后台管理中心跳转问题解决
- php取月份函数,分享3个php获取日历的函数
- centos 6.3 x86_64安装32位JDK的问题
- LQ训练营(C++)学习笔记_常见动态规划模型
- 利用@media screen实现网页布局的自适应
- django中FastDFS客户端与自定义文件存储系统
- 直播预告 - 微软MVP为你揭秘Visual Studio 2019新特性
- 日结问题解决思路和方式
- 深入学习用Go编写HTTP服务器
- 科学的软件测试培训时间是多久?
- macbook卡在进度条开不了机_解决MacBook Pro开机卡死在进度条无反应,进不去桌面...
- Proximity Based IoT Device Authentication翻译与理解
- Python私有属性与私有方法
- 分享一个支持离线下载的免费网盘
- 小米华为抢占智能家居,智慧家庭时代到来?
- 教你如何批量新建文件夹并命名?
- 人生意义处,无限循环时
热门文章
- 查看、关闭SELinux
- JAVA学习篇--Java类加载
- fatal error C1083: Cannot open include file: 'qttreepropertybrowser.moc': No such file or directory
- Assembly.Load,LoadFile,LoadFrom
- Android 第二章 本地文件的读写
- java volatile有什么用_深入解析Java中volatile关键字的作用
- smart原则_《红楼梦》凤姐做领导为什么积劳成疾?只因为不懂SMART原则
- Netty 的核心组件
- go:linkname
- 阿里云centos镜像地址以及个发行版本说明