今天,我们用Python来开发一个简陋的图片搜索下载器。

由于网站使用JavaScript和ajax动态加载技术,还有验证码机制,对小白来说想要获得原图实在太难啦。

所以能获取缩略图,主要提供基本思路。

选择的是pixabay,挺有名的高品质图片网站,免费的, 相信许多人对此并不陌生。

一、目标:

1、实现输入关键词,自动搜索到图片

2、获取图片链接

3、批量下载图片,命名保存入文件

4、代码优化,不中段、无重复,并且可指定下载范围

二、步骤:

1、首先观察分析。

点击进入官网,好家伙和百度一样的瀑布流模式,查看源码发现关键字‘ajax',及异步加载模式

果不其然,要点击页面才能看到缩略图,还要点击图片才能下载。审查元素里面并不是原图的链接,源码中也没有,点开图片后还有上方的地址也并不是原图地址,按照一般的思路的话,并不能获取原图(可能要用到PhantomJS、Selenium等)。可是我还没有学到PhantonJ和Selenium呀,所以只能先试试缩略图啦。(不过最小的那一个下载模式要大一些)/2013/10/16/14/45/是时间,flower为关键词,结合源码分析196360应该是每一个图片的特殊代号。

事情由此变得简单了,只要我们用正则匹配出时间、特殊代号,再构造出原图地址就可以得到可爱的链接啦!

2、具体步骤

1)匹配图片数量的正则

pattern=re.compile('pattern=re.compile('pattern1=re.compile('

刚开始时用的是最先这个,结果只能返回16个图。百思不得解,还去看了下别的网站,准备放弃之际,

查看源码发现,我勒个去,正好与这带下划线链接的16个项吻合,而后面的图片项发现皆带有'data-lazy'。也就是说,前16和后16根本采用不是一个模式啊!这可能也是为了反恶意爬虫吧,总之厉害了我的哥^_^。后面就简单,分别匹配正则并讨论。

3)创建目录,保存入文件和之间如出一辙,不再赘述。

4)下载保存一页图片时detailURL分情况讨论。i<=16和 i>16的情况。

5)接下来对多页进行循环,发现第1页和第2页之后的url又不相同啦,具体分析之后,构造如下

url2='https://pixabay.com/zh/photos/?orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)

url2='http://pixabay.com/zh/photos/?image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'

6)最后优化环节:

a、检查链接错误减少下载中断

b、去掉图片下载重复(即每一次重新开始就不用重新下载之前的内容)

c、设计交互(raw_input)、优化注释

d、最后还是觉得太low又改了一下,可以选择下载页数(下多少页呀),及起始页数(从哪开始)。经验发现一页100张。这回方便了,不用每次从头开始了。

嘿嘿,这就是一个下载器的基本思路啦

三、代码如下

# -*-coding:utf-8 -*-

__author__='WYY'

__date__='2017.03.17'

#【原创】爬虫实战小项目:pixabay 图片下载器

import re

import os

import requests

import urllib2

import time

class Spider():

#初始化参数

def __init__(self):

self.keyword=raw_input(u'欢迎使用pixabay 图片搜索下载神器\n请输入搜索关键词(英文):')

self.siteURL='http://pixabay.com/zh/photos/?image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'

#获取详情页源码

def getSource(self,url):

result=requests.get(url).text.encode('utf-8')

return result

#获取图片页数

def getPageNum(self):

result=self.getSource(self.siteURL)

pattern=re.compile(' pattern1=re.compile('

items=re.findall(pattern2,result)

return items

#保存图片入文件

def saveImage(self,detailURL,name):

try:

picture=urllib2.urlopen(detailURL)

fileName=name+'.jpg'

string='F:\Desktop\code\pixabay\%s\%s' % (self.path, fileName)

E=os.path.exists(string)

if not E:

f=open(string, 'wb')

f.write(picture.read())

f.close()

else:

print u'图片已经存在,跳过!'

return False

except (urllib2.HTTPError,urllib2.URLError), e:

print e.reason

return None

#创建目录

def makeDir(self, path):

self.path=path.strip()

E=os.path.exists(os.path.join('F:\Desktop\code\pixabay', self.path))

if not E:

# 创建新目录,若想将内容保存至别的路径(非系统默认),需要更环境变量

# 更改环境变量用os.chdir()

os.makedirs(os.path.join('F:\Desktop\code\pixabay',self.path))

os.chdir(os.path.join('F:\Desktop\code\pixabay',self.path))

print u'成功创建名为', self.path, u'的文件夹'

return self.path

else:

print u'名为', self.path, u'的文件夹已经存在...'

return False

#对一页的操作

def saveOnePage(self,url):

i=1

items=self.getItem1(url)

for item in items:

detailURL='https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+ '_960_720.jpg'

print u'\n', u'正在下载并保存图片', i, detailURL

self.saveImage(detailURL, name='Num'+str(i))

time.sleep(0.5)

i+=1

if i>16:

items=self.getItem2(url)

i=17

for item in items:

detailURL = 'https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+'_960_720.jpg'

print u'\n', u'正在下载并保存图片', i, detailURL

self.saveImage(detailURL,name='Num'+str(i))

time.sleep(0.5)

i += 1

#对多页图片的操作

def saveMorePage(self):

numbers=self.getPageNum()

Num=int(raw_input(u'一页共100张图,\n请输入要下载的页数(默认页数大于等于1):'))

Start=int(raw_input(u'请输入下载起始页数:'))

if numbers>=1:

for page in range(Start,Start+Num):

if page==1:

print u'\n',u'正在获取第1页的内容......'

self.url1=self.siteURL

self.makeDir(path=self.keyword + 'page' + str(page))

self.saveOnePage(url=self.url1)

else:

print u'\n',u'正在获取第',page, u'页的内容'

self.url2='https://pixabay.com/zh/photos/?orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)

self.makeDir(path=self.keyword + 'page' + str(page))

self.saveOnePage(url=self.url2)

else:

return False

print u'\n',u'圆满成功!!!'

spider=Spider()

spider.saveMorePage()

四、看结果

第一页

最后一页

实现了去重

看看文件里的变化,食物已经乖乖躺在指定文件夹啦~

本篇只设计基本的思路,之后带我学好了如何爬取动态网页再进行补充。

----------------------------------------------------这是分隔线--------------------------------------------------------

Python网络爬虫入门(一)Python网络爬虫入门(一)

Python网络爬虫入门(二)python网络爬虫入门(二)

大家也可以加小编微信:tszhihu (备注:Python),拉大家到 Python爱好者社区 微信群,可以跟各位老师互相交流。谢谢。

也可以关注微信公众号:Python爱好者社区 (ID:python_shequ)

python14张图下载_Python网络爬虫入门(三)—— 做个简陋的pixabay 图片下载器 (附源码)...相关推荐

  1. python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...

    说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...

  2. 玩转python网络爬虫黄永祥pdf下载_Python网络爬虫从入门到实践pdf

    Python网络爬虫从入门到实践 内容简介 本书将介绍如何使用Python编写网络爬虫程序获取互联网上的大数据.本书包括三部分内容:基础部分.进阶部分和项目实践.基础部分(第1~6章)主要介绍爬虫的三 ...

  3. java技术分享主题_Java开发入门:适合新手练手的Java项目(附源码下载)

    Java作为一门古老的语言,已有20年左右的历史,这在发展日新月异的技术圈可以说是一个神话.虽然不少人曾抱怨Java语言就像老太太的裹脚布,又臭又长,有时写了500行都不能表达程序员的意图. 但从市场 ...

  4. 酷毙了!三种风格的全屏幻灯片效果【附源码下载】

    今天,我们想向您展示如何创建平铺背景图像的幻灯片效果.其灵感来自于国外的一个工作室网站(围观),这个网站充满了各种有趣和创意效果,一定记得去看看. 这个幻灯片效果是由四个区域的独立移动构成,通过画面分 ...

  5. php图片动画源码,JavaScript_jQuery插件ImageDrawer.js实现动态绘制图片动画(附源码下载),ImageDrawer.js是一款可以实现动 - phpStudy...

    jQuery插件ImageDrawer.js实现动态绘制图片动画(附源码下载) ImageDrawer.js是一款可以实现动态绘制图片动画的jQuery插件.通过ImageDrawer.js插件,你可 ...

  6. python sub 不区分大小写_Python网络爬虫入门篇

    1. 预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...

  7. python网络爬虫网易云音乐下载_python网络爬虫爬取网易云音乐

    #爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...

  8. 优品课堂python下载_Python 网络爬虫数据采集 【优品课堂】

    资源内容: Python 网络爬虫数据采集 [优品课堂]|____9 requests HTTP编程          |____5 [录播]requests cookies 处理           ...

  9. 优品课堂python下载_Python网络爬虫数据采集【优品课堂】

    资源内容: Python网络爬虫数据采集[优品课堂]|____1.mp4|____1.mp4|____1.mp4|____1.mp4|____1Python标准库urllib应用I|____1URL解 ...

  10. 【毕业设计_课程设计】基于网络爬虫的新闻采集和订阅系统的设计与实现(源码+论文)

    文章目录 0 项目说明 1 项目说明 2 系统需求 3 系统架构 4 效果展示 5 论文目录 6 项目工程 0 项目说明 基于网络爬虫的新闻采集和订阅系统的设计与实现 提示:适合用于课程设计或毕业设计 ...

最新文章

  1. MySQL服务启动脚本
  2. 滴滴出行2020数据分析面试题
  3. 由于检索用户的本地应用程序数据路径时出错,导致无法生成 SQL Server 的用户实例...
  4. scala 方法、函数定义小结
  5. 在windows storage server 2008上创建iscsi磁盘
  6. java mysql blob 存储图片_Java操作mysql存储图片
  7. 发布:偶写的NHibernate代码生成器
  8. 用matlab实现假设性检验T检验(葡萄酒评价)
  9. JFreeChart画折线图
  10. 【元胞自动机】基于matlab元胞自动机单车道交通流(时空图)【含Matlab源码 1681期】
  11. 66ccff.xyz
  12. 几款优秀的个人防火墙
  13. html文字设置为白色,html如何设置文字颜色白色
  14. 解决移动端上用overflow-y:scorll样式生硬的问题
  15. 35岁以后的Android程序员出路在哪里?大牛最佳总结
  16. mysql单精度双精度相加_单精度与双精度
  17. 关于iTerm2 你不知道的一些事
  18. 混沌麻雀搜索优化算法
  19. 傅老师课堂:TrieTree
  20. 小议JAVA数据类型间的相互转换

热门文章

  1. 浅谈数据挖掘中的关联规则挖掘
  2. 创意的个人简历tab网站模板
  3. 八进制和十六进制转二进制
  4. 云服务器ECS/EC2_转载
  5. Apache虚拟主机配置详细教程
  6. 南大周志华、俞扬、钱超最新力作:演化学习:理论与算法进展一书导读
  7. php 金额转大写,php实现将人民币金额转大写的办法
  8. 电商公司ERP管理软件与旺店通、第三方仓库以及云仓的贯通解决方案
  9. 戴尔服务器预装系统如何降级,在戴尔计算机上降级系统BIOS | Dell 中国
  10. cashfiesta网上赚钱