python图片爬虫，指定关键字爬取Google图片+搜狗图片

目标

指定关键字，爬取若干张（>1000）图片。

环境

windows 10 + python3.7 + IDE为jupyter (or pycharm) +（可选：如需爬取谷歌图片，需科学上网）

Google实现

（需自行实现科学上网）

参考： https://github.com/YoongiKim/AutoCrawler/blob/master/README.md

自行实现科学上网
安装Chrome浏览器--Chrome浏览器右上角的三个竖着的点--设置--关于Chrome（在左下角位置）--得到图1,它表明 Chrome版本为 87.0,记下这个版本号
clone开源项目：git clone https://github.com/YoongiKim/AutoCrawler.git
在此项目的根目录下（即进到 requirements.txt文件所在的目录），执行 pip install -r requirements.txt
在这里下载适合自己的chrom drive （选第二步中对应的版本号，即 87.0），如图2
在 keywords.txt 里写搜索的key words, 如想爬取猫的图，就写“cat”
执行python脚本，python run.py
文件将会被下载到 'download' 目录，会根据第6步中的key words自行形成次级目录.如图3

搜狗实现

创建run.py空白文件，拷贝代码（见下文）
在这里输入你的搜索关键字（中英文均可）-- 点url编码 -- 拷贝编码结果。如图4
run.py的24行，将query=后的内容改成步骤2中的编码结果
run.py的44行，将存储路径指定为你想要的路径
执行python脚本，python run.py
文件将会被下载到步骤3中指定的路径.如图5

import requests
import urllib
import json
import os
import shutil  # 用来删除文件夹
import datetimedef getSogouImag(path):# 判断文件夹是否存在，存在则删除if os.path.exists(path):shutil.rmtree(path)# 创建文件夹os.mkdir(path)m = 0# 循环爬取，每次100张，共50次for i in range(0,50):start_p = i*100stop_p = (i+1)*100##这个 URL 怎么写？ 请看文中url_i = 'https://pic.sogou.com/napi/pc/searchList?mode=1&start=' \+ str(start_p) \+ '&xml_len=' \+ str(stop_p) \+ '&query=%E6%88%B4%E5%AE%89%E5%85%A8%E5%B8%BD%E7%8E%B0%E5%9C%BA'imgs = requests.get(url_i)imgs_text = imgs.textimgs_json = json.loads(imgs_text)imgs_json = imgs_json['data']imgs_items = imgs_json['items']for i in imgs_items:try:img_url = i['picUrl']print('*********' + str(m) + '.png********' + 'Downloading...')print('下载的url: ', img_url)urllib.request.urlretrieve(img_url, path + str(m) + '.jpg')m = m + 1except:continueprint('Download complete !')time_stamp = datetime.datetime.now()
print('===start=== at:', time_stamp.strftime('%Y.%m.%d-%H:%M:%S'))getSogouImag('D:/home/oi/data_pac/')time_stamp = datetime.datetime.now()
print('===end=== at:', time_stamp.strftime('%Y.%m.%d-%H:%M:%S'))

搜狗实现的一些解释

文件夹检查块代码：注意文中的写法每次rerun , 会删掉存文件的文件夹及其内容，并重新下载

最外层 0-50 循环：因为我发现搜狗图片的请求，即使我写了一次请求一万个，但最大一次也就给一百个。所以循环50次，每次100个

url_i ：这个怎么来的？

因为我搜索的的 “戴安全帽工地现场” ，所以对应的链接是： https://pic.sogou.com/pics?query=%E6%88%B4%E5%AE%89%E5%85%A8%E5%B8%BD%E5%B7%A5%E5%9C%B0%E7%8E%B0%E5%9C%BA&w=05009900

打开这个链接，F12 ，看network ,注意关注请求名，注意这个网站是无限下拉的，拉到底出现更多内容加载时，找一下非图片下载的请求名，也就是下图框起来的这个

框中部分复制出来长这样：https://pic.sogou.com/napi/pc/searchList?mode=1&start=144&xml_len=48&query=%E6%88%B4%E5%AE%89%E5%85%A8%E5%B8%BD%E5%B7%A5%E5%9C%B0%E7%8E%B0%E5%9C%BA

自己去浏览器发一下这个请求，会发现返回是一个 Jason，里面有很多图片的下载URL，我们看一下这个请求，会发现其实它指定了 start = 144 , xml_len = 48，也就是从144开始，一次拿48个。

于是我们粗暴的指定 start = 0, xml_len = 10000，会发现返回最大就是100个，不会到10000，于是我们使用了上文中的“最外层 0-50 循环”

url指定好了之后：获取Jason

imgs = requests.get(url_i)
imgs_text = imgs.text
imgs_json = json.loads(imgs_text)
imgs_json = imgs_json['data']
imgs_items = imgs_json['items']

简单的说就是请求这个URL，得到那一大串jason ，这里必须提一下每个网站的jason 应该会指定不同的格式，所以 imgs_json = imgs_json['data'] ，imgs_items = imgs_json['items'] 这里会因网站而各不相同。我是debug看了下 Jason的长相，然后手动指定这两个属性名。

下载图片 : 每次的Jason会给100张图，图的下载URL 的属性名叫 picUrl ，同理这个也是debug 看Jason内容找到的，不同网站可能叫法不一样。

try cactch代码部分 ：发现有些图片可能会报错下不下来，所以套个异常，一旦失败，跳过失败的继续爬下一张。