[脚本收集]提取Tripntale图片

自从上次从国家地理上取得图片之后，我又产生新的想法:要从Tripntale上取得照片.Tripntale是一个很不错网络相册，尤其是对那些比较喜欢旅游的同志。

按照之前在提取国家地理照片的思路：

1. 轮询每个照片的网页

Tripntale的相册目录结构是http://www.tripntale.com/pic/8238/424541，其中8343代表某个相册的ID，429749是该相册下照片的ID，可能的难点是这个相册下的ID有可能不是持续递增的。而试图去访问一个该相册不存在的ID的时候，会自动跳转回该相册，即http://www.tripntale.com/trip/8238。这里主要用到的是urllib2模块的urlopen方法得到页面的response。

page = urllib2.urlopen("http://www.tripntale.com/pic/8238/424541")
response = page.read()

2. 通过研究图片的属性，写出合适的正则表达式。

通过研究上面的图片，我们得到实际图片的html代码是：

在这里，除了src的内容和alt的内容外，其他都是固定的，我们不关心alt的内容，所以只要专注在怎么匹配src上。

这里提供的正则表达式是：imgre = '.*s3.amazonaws.com/img\\.tnt.*/(.+?)\".*ctl00_RightContent_imageHolder.*'

3. 利用re模块的findall，得到图片的名称

result = re.findall(imgre, response, re.S)
print result

4. 保存图片到本地

这里要用到urllib模块的urlretrieve方法

[脚本收集]提取Tripntale图片相关推荐

C++编写爬虫脚本爬取网站图片
C++编写爬虫脚本爬取网站图片整体代码设计思路具体功能实现初始化网络库 url中爬取图片获取网页源代码连接主机 url中获取主机名和文件名 html中提取连接 html中提取图片链接获取并 ...
法发〔2016〕22号《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》
文号:法发[2016]22号全部标题:最高人民法院最高人民检察院公安部印发<关于办理刑事案件收集提取和审查判断电子数据若干问题的规定>的通知发文时间:2016年9月9日来源:最高人民 ...
WebView与JS的那些事：注入JS提取页面图片
上一篇博文中,我们大概了解了js与webview的一些交互,然而,在我们实际的应用中,更倾向于在android端对网页做一些处理,今天带给大家的是往页面注入JS脚本,提取页面上的图片,然后通过另一个A ...
Tips--利用shell脚本批量提取txt文件中任意字段
利用shell脚本批量提取txt文件中任意字段前言 0. 一个例子 1. cat命令 2. '|'符号与'>'符号 3. grep命令 4. awk命令前言对于测试中出现的log,我们经常 ...
如何将视频的每一帧提取成图片
关于如何将视频的每一帧提取成图片有时候我们需要将视频按帧提取出来,但是一个普通的24帧的视频每秒就有24张图片,一分钟的视频就有1440张图片,如果一帧一帧的截取,那无疑十分的浪费时间,而且如何按帧 ...
Praat脚本-022 | 提取时长和音强
目录引题操作解释运行脚本获取脚本关注版权说明引题提取基频Praat脚本-009 | 提取时长和基频,提取共振峰Praat脚本-010 | 提取时长和共振峰,提取音强,这大概是最常用的三 ...
python自动化提取pdf表格_[Python] 自动化办公多种提取PDF图片的方法
转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒) 若公众号内转载请联系公众号:早起Python 这篇文章能学到的主要内容: 基于 fitz 库和正则搜索提取图片基 ...
Python脚本批量重命名图片
Python脚本批量重命名图片 # -*- coding: utf-8 -*- """ Created on Tue Mar 23 13:34:59 2021@autho ...
Springboot使用pdfbox提取PDF图片
Springboot使用pdfbox提取PDF图片 PDFBox的介绍 Springboot集成PDFBox 一.提取pdf首页为图像 1. 实现需求 2. 项目代码 3. 执行结果二.将pdf内容 ...

[脚本收集]提取Tripntale图片

[脚本收集]提取Tripntale图片相关推荐

最新文章

热门文章