自从上次从国家地理上取得图片之后,我又产生新的想法:要从Tripntale上取得照片.Tripntale是一个很不错网络相册,尤其是对那些比较喜欢旅游的同志。

按照之前在提取国家地理照片的思路:

1. 轮询每个照片的网页

Tripntale的相册目录结构是http://www.tripntale.com/pic/8238/424541,其中8343代表某个相册的ID,429749是该相册下照片的ID,可能的难点是这个相册下的ID有可能不是持续递增的。而试图去访问一个该相册不存在的ID的时候,会自动跳转回该相册,即http://www.tripntale.com/trip/8238。这里主要用到的是urllib2模块的urlopen方法得到页面的response。

page = urllib2.urlopen("http://www.tripntale.com/pic/8238/424541")
response = page.read()

2. 通过研究图片的属性,写出合适的正则表达式。

通过研究上面的图片,我们得到实际图片的html代码是:

<img src="http://s3.amazonaws.com/img.tnt/mk6gRUUpU0uRvkf9oetwswss/9tuVbgapCECOY5xtdppvUQss_l.JPG"
id="ctl00_RightContent_imageHolder"
border="0"
alt="Church in Adare" />

在这里,除了src的内容和alt的内容外,其他都是固定的,我们不关心alt的内容,所以只要专注在怎么匹配src上。

这里提供的正则表达式是:imgre = '.*s3.amazonaws.com/img\\.tnt.*/(.+?)\".*ctl00_RightContent_imageHolder.*'

3. 利用re模块的findall,得到图片的名称

result = re.findall(imgre, response, re.S)
print result

4. 保存图片到本地

这里要用到urllib模块的urlretrieve方法

[脚本收集]提取Tripntale图片相关推荐

  1. C++编写爬虫脚本爬取网站图片

    C++编写爬虫脚本爬取网站图片 整体代码设计思路 具体功能实现 初始化网络库 url中爬取图片 获取网页源代码 连接主机 url中获取主机名和文件名 html中提取连接 html中提取图片链接 获取并 ...

  2. 法发〔2016〕22号《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》

    文号:法发[2016]22号 全部标题:最高人民法院最高人民检察院公安部印发<关于办理刑事案件收集提取和审查判断电子数据若干问题的规定>的通知 发文时间:2016年9月9日 来源:最高人民 ...

  3. WebView与JS的那些事:注入JS提取页面图片

    上一篇博文中,我们大概了解了js与webview的一些交互,然而,在我们实际的应用中,更倾向于在android端对网页做一些处理,今天带给大家的是往页面注入JS脚本,提取页面上的图片,然后通过另一个A ...

  4. Tips--利用shell脚本批量提取txt文件中任意字段

    利用shell脚本批量提取txt文件中任意字段 前言 0. 一个例子 1. cat命令 2. '|'符号与'>'符号 3. grep命令 4. awk命令 前言 对于测试中出现的log,我们经常 ...

  5. 如何将视频的每一帧提取成图片

    关于如何将视频的每一帧提取成图片 有时候我们需要将视频按帧提取出来,但是一个普通的24帧的视频每秒就有24张图片,一分钟的视频就有1440张图片,如果一帧一帧的截取,那无疑十分的浪费时间,而且如何按帧 ...

  6. Praat脚本-022 | 提取时长和音强

    目录 引题 操作解释 运行脚本 获取脚本 关注 版权说明 引题 提取基频Praat脚本-009 | 提取时长和基频,提取共振峰Praat脚本-010 | 提取时长和共振峰,提取音强,这大概是最常用的三 ...

  7. python自动化提取pdf表格_[Python] 自动化办公 多种提取PDF图片的方法

    转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒) 若公众号内转载请联系公众号:早起Python 这篇文章能学到的主要内容: 基于 fitz 库和正则搜索提取图片 基 ...

  8. Python脚本批量重命名图片

    Python脚本批量重命名图片 # -*- coding: utf-8 -*- """ Created on Tue Mar 23 13:34:59 2021@autho ...

  9. Springboot使用pdfbox提取PDF图片

    Springboot使用pdfbox提取PDF图片 PDFBox的介绍 Springboot集成PDFBox 一.提取pdf首页为图像 1. 实现需求 2. 项目代码 3. 执行结果 二.将pdf内容 ...

最新文章

  1. 重启nagios有异常提示Starting nagios:This account is currently not available
  2. 汇编伪指令EVEN(数据对齐的伪指令,使得下一个变量的起始地址是偶数字节的)
  3. SQL 列转行、行转列 - 使用sqlite演示
  4. 后台管理中心跳转问题解决
  5. php取月份函数,分享3个php获取日历的函数
  6. centos 6.3 x86_64安装32位JDK的问题
  7. LQ训练营(C++)学习笔记_常见动态规划模型
  8. 利用@media screen实现网页布局的自适应
  9. django中FastDFS客户端与自定义文件存储系统
  10. 直播预告 - 微软MVP为你揭秘Visual Studio 2019新特性
  11. 日结问题解决思路和方式
  12. 深入学习用Go编写HTTP服务器
  13. 科学的软件测试培训时间是多久?
  14. macbook卡在进度条开不了机_解决MacBook Pro开机卡死在进度条无反应,进不去桌面...
  15. Proximity Based IoT Device Authentication翻译与理解
  16. Python私有属性与私有方法
  17. 分享一个支持离线下载的免费网盘
  18. 小米华为抢占智能家居,智慧家庭时代到来?
  19. 教你如何批量新建文件夹并命名?
  20. 人生意义处,无限循环时

热门文章

  1. 查看、关闭SELinux
  2. JAVA学习篇--Java类加载
  3. fatal error C1083: Cannot open include file: 'qttreepropertybrowser.moc': No such file or directory
  4. Assembly.Load,LoadFile,LoadFrom
  5. Android 第二章 本地文件的读写
  6. java volatile有什么用_深入解析Java中volatile关键字的作用
  7. smart原则_《红楼梦》凤姐做领导为什么积劳成疾?只因为不懂SMART原则
  8. Netty 的核心组件
  9. go:linkname
  10. 阿里云centos镜像地址以及个发行版本说明