1、概述
这一节,我们将在百度图片中爬取需要训练的图片数据:猪、蛇、狗、大象、老虎。

2、打开待爬取网页
打开百度图片首页:

http://image.baidu.com/

在搜索框中输入“猪”,点击搜索,得到结果如下图所示,

直接将右边的滚动条拉到底部,就可以在底部看到“正在加载”的GIF动态图,

这说明,百度图片也是动态加载的。接着,按F12或者”ctrl+shift+k”打开调试窗口,打开Network窗口,

当我们将鼠标放到图片上时,发现会有GET请求,

我们将这个请求打开来看看,链接如下:

https://imgstat.baidu.com/4.gif?p=29&hostfr=imgstat&qs=1529411015204_R&q=猪&vtime=988&cs=2732518771,538070982&u=http://imgsrc.baidu.com/imgad/pic/item/d62a6059252dd42a5654fe8e093b5bb5c9eab8b2.jpg&f=ippr_z2C$qAzdH3FAzdH3Fooo_z&e3Bq7wg3tg2_z&e3Bv54AzdH3Ft42k7yAzdH3F7sa9lb-cn88_z&e3Bip4s&personalized=0&adPicId=undefined&strategy=undefined&tn=baiduimage&fcType=2&vs=314088520e8a6261a6099fd99ad7a006ea919513&aspSID=9668dcf1608b62e9&ie=utf-8&qpagetype=0&userid=&logid=10838155432532075241&lsTime=11736&675697503838.599

打开的结果是这样的,不是图片,那就不是我们要找的链接,

将“Network”窗口清空,将右侧滚动条快速拉到底部(或者,拉滚动条之前,先将网络关闭,这样更方便我们观察),得到如下请求:

我们发现,”acjson?”开头的请求跟其他的请求不一样,

https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E7%8C%AA&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=%E7%8C%AA&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=90&rn=30&gsm=5a&1529411866452=

我们将其拷贝出来打开看看(如果刚才关闭了网络,记得打开哈),得到结果如下图,

复制一个”.jpg”为后缀的链接,打开看看,结果如下图,

我们在搜索页找找,也看到了这张图片,

说明这个链接就是我们想要的,多获取几个这样的链接比较比较有什么规律,

可以看到,除了最后的几个参数的值不一样意外,其他参数都一样,但是,这几个不一样的参数值,又没有什么明显的规律,pn参数的值是一个三位数的整数,gsm是二到三位数的十六进制的数,最后一个参数是十三位数数字。

先不管这些了,写个代码将这些链接里的图片分别爬取并下载,再直观的比较看看咯。

3、爬取单个链接下的图片

3.1、寻找规律

在写代码之前,先来看看这个链接请求到的json数据有什么规律。为了方便查看,用代码将其爬取,然后保存到文本里。代码如下,

#encoding:utf-8
import urllib.request as ur
import re
import codecsurl = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=猪&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=猪&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=300&rn=30&gsm=12c&1529415766104='with codecs.open("百度图片json.json", "w", 'utf-8') as fd:req = ur.Request(url)req.add_header("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0")html1 = ur.urlopen(req, timeout=600).read()html1 = str(html1.decode('utf-8'))fd.write(html1)

运行结果:

编码错误,发生在这一句:html1 = ur.urlopen(req, timeout=600).read()

我们发现url里有中文的“猪”字,那么将其改成pig试试?

运行通过。

这个问题就涉及到URL标准了,URl标准只允许一部分ASCII字符(字母、数字及部分符号等),而其他字符,比如汉字,就不符合URL标准,所以当URL使用一些不符合标准的字符时就会出错。可以urllib.request.quote()对URL编码来解决这个问题。

例如,将URL:

'https://image.baidu.com/search/index?tn=baiduimage&word=猪'

进行转码得

'https://image.baidu.com/search/index?tn=baiduimage&word=%E7%8C%AA'

我们还可以用urllib.request.unquote()进行解码,如,

所以,将上面的代码改为,

#encoding:utf-8
import urllib.request as ur
import re
import codecs
import stringurl = ur.quote('https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=猪&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=猪&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=300&rn=30&gsm=12c&1529415766104=', safe = string.printable)with codecs.open("百度图片json.json", "w", 'utf-8') as fd:req = ur.Request(url)req.add_header("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0")html1 = ur.urlopen(url, timeout=600).read()html1 = str(html1.decode('utf-8'))fd.write(html1)

正确运行,我们打开最前面的两个jpg链接看看,链接为,

https://ss1.bdstatic.com/70cFuXSh_Q1YnxGkpoWK1HF6hhy/it/u=2054088616,1584946369&fm=27&gp=0.jpg

https://ss1.bdstatic.com/70cFuXSh_Q1YnxGkpoWK1HF6hhy/it/u=2054088616,1584946369&fm=27&gp=0.jpg

哎,这两个链接居然一样?那么我们查找一下还有几个重复的链接?

居然有三个!分别对于字段thumbURL、middleURL、hoverURL。查看其他的jpg链接也是一样的,所以,我们只爬取以上任意一个字段下的jpg图片,以免爬取到重复的图片。代码如下:

#encoding:utf-8
import urllib.request as ur
import re
import os
import stringurl = ur.quote('https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=猪&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=猪&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=300&rn=30&gsm=12c&1529415766104=', safe = string.printable)req = ur.Request(url)
req.add_header("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0")
html1 = ur.urlopen(url, timeout=600).read()
html1 = str(html1.decode('utf-8'))pat1 = '"thumbURL":".+?",'
pat2 = 'https:.+?.jpg'
thumbURLs = re.compile(pat1).findall(html1)
imageURLs = re.compile(pat2).findall(str(thumbURLs))save_dir = 'pig1/'
if os.path.exists(save_dir) is False:os.mkdir(save_dir)# print(imageURLs)
for index, imageurl in enumerate(imageURLs):try:data = ur.urlopen(imageurl, timeout=20).read()fd = open(save_dir + 'pig' + '_' + str(index) + '.jpg', "wb")fd.write(data)fd.close()except:print('异常...')

运行结果:

为了找到规律,我们试着将上面URL的“&1529415766104=“加一改成“&1529415766105=“试试,当然,保存的路径也要改成”pig2“,得到如下结果,

对比发现,两个链接得到的图片是一样的,可以猜测最后一个参数可能是没用的,将其去掉。将”&gsm=12c“改成”&gsm=12b“试试,得到的图片还是一样的,如下图,

再将”&pn=300“改成”&pn=401“试试,得到结果如下,

总算不一样了,再试试”&pn=402“,得到结果如下(右边是402的结果),

我们发现,除了第一张和最后一张图片不一样以外,其他的图片都只是错位而已,而且,得到的图片数量为30,”&rn=“的参数刚好是30,由此可以猜测,”&pn=“相当于指定图片序列的下标,”&rn=“指定获取的图片张数。找到规律以后就好办了,接下来开始撸代码。

3、代码实现

4.1、思路

我们将搜索关键词设置为“猪”、“蛇”、“狗”、“老虎”、“大象”,每个种类获取两千张图片,每次请求50张图片,将其保存到相应的种类的文件夹下。为了加快效率,开启5个线程来爬取和保存图片,修改上面的代码即可。

4.2、完整代码

由于比较简单,所以直接给完整的代码吧。

#encoding:utf-8
import urllib.request as ur
import re
import os
import string
import threadingdef get_image(keyworld, pn, rn, type, i):try:url = ur.quote('https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result''&queryWord=' + keyworld + '&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=' + keyworld +'&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=' + str(pn) + '&rn=' + str(rn) + '&gsm=1e&1529504588260=',safe=string.printable)req = ur.Request(url)req.add_header("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0")html1 = ur.urlopen(url, timeout=600).read()html1 = str(html1)pat1 = '"thumbURL":".+?",'pat2 = 'https:.+?.jpg'thumbURLs = re.compile(pat1).findall(html1)imageURLs = re.compile(pat2).findall(str(thumbURLs))save_dir = type + '/' + type + i + '/'if os.path.exists(save_dir) is False:os.makedirs(save_dir)for index, imageurl in enumerate(imageURLs):try:data = ur.urlopen(imageurl, timeout=20).read()fd = open(save_dir + type + '_' + str(pn) + '_' + str(index) + '.jpg', "wb")fd.write(data)fd.close()except Exception as e:print('保存图片异常:' + e)except Exception as e:print('获取图片url异常:' + e)class ThreadA(threading.Thread):def __init__(self):threading.Thread.__init__(self)def run(self):for i in range(40):get_image('猪', i * 50, 50, 'Pig', str(i))class ThreadB(threading.Thread):def __init__(self):threading.Thread.__init__(self)def run(self):for i in range(40):get_image('蛇', i * 50, 50, 'Snake', str(i))class ThreadC(threading.Thread):def __init__(self):threading.Thread.__init__(self)def run(self):for i in range(40):get_image('狗', i * 50, 50, 'Dog', str(i))class ThreadD(threading.Thread):def __init__(self):threading.Thread.__init__(self)def run(self):for i in range(40):get_image('老虎', i * 50, 50, 'Tiger', str(i))class ThreadE(threading.Thread):def __init__(self):threading.Thread.__init__(self)def run(self):for i in range(40):get_image('大象', i * 50, 50, 'Elephant', str(i))if __name__ == '__main__':tA = ThreadA()tA.start()tB = ThreadB()tB.start()tC = ThreadC()tC.start()tD = ThreadD()tD.start()tE = ThreadE()tE.start()

4.3、运行结果

运行上面代码后,在当前目录下生成五个文件夹,每个文件夹下对应其分类的图片,如下图,

拿Dog分类来将,其文件夹下有40个目录,每个目录对应每次请求,里面有每次请求得到的50张图片。这样做是为了方便删除无效的图片,因为百度图片搜索的结果不一定是对的,有时候搜索猪,可能得到的是一个人的图片。

总结:

因为仅供学习使用,所以我就没有爬取太多图片,省得整理图片花去太多心思。如果爬取的图片很多,而且对方服务器采取了反爬虫措施,那么,可能就得使用代理服务器或者更高级点的伪装了,这里就不涉及了,够用就好。接下来,我们就的整理这些下载下来的图片了,将无效的图片去除,留着下一节使用。

tensorflow精进之路(十九)——python3网络爬虫(下)相关推荐

  1. tensorflow精进之路(十八)——python3网络爬虫(中)

    1.概述 上一节简单的介绍了一些python3网络爬虫的知识,这一节就运用上一节的知识写个小demo,用于爬去汽车之家网站的汽车厂商及车型名称. 2.打开待爬取网页 打开汽车之家官网, https:/ ...

  2. TensorFlow精进之路(九):TensorFlow编程基础

    1.概述 卷积部分的知识点在博客:TensorFlow精进之路(三):两层卷积神经网络模型将MNIST未识别对的图片筛选出来已经写过,所以不再赘述.这一节简单聊聊tensorflow的编程基础. 2. ...

  3. TensorFlow精进之路(十二):随时间反向传播BPTT

    1.概述 上一节介绍了TensorFlow精进之路(十一):反向传播BP,这一节就简单介绍一下BPTT. 2.网络结构 RNN正向传播可以用上图表示,这里忽略偏置. 上图中, x(1:T)表示输入序列 ...

  4. TensorFlow精进之路(三):两层卷积神经网络模型将MNIST未识别对的图片筛选出来

    1.概述 自从开了专栏<TensorFlow精进之路>关于对TensorFlow的整理思路更加清晰.上两篇讲到Softmax回归模型和两层卷积神经网络模型训练MNIST,虽然使用神经网络能 ...

  5. Python3 网络爬虫快速入门实战解析

    点击上方"Python高校",关注 文末干货立马到手 作者:Jack Cui http://cuijiahua.com/blog/2017/10/spider_tutorial_1 ...

  6. 《Python3网络爬虫开发实战(第二版)》内容介绍

    这是「进击的Coder」的第 505 篇分享 作者:崔庆才 大家好,本节首先来预告下即将出版的<Python3网络爬虫开发实战(第二版)>的主要内容. 由于我已经把书的总体的内容介绍写在了 ...

  7. Python3网络爬虫快速入门实战解析

    Python3网络爬虫快速入门实战解析 标签: python网络爬虫 2017-09-28 14:48 6266人阅读 评论(34) 收藏 举报 分类: Python(26) 作者同类文章X 版权声明 ...

  8. 【天善学院】自己动手,丰衣足食!Python3网络爬虫实战案例 附讲义与代码 6 A+所属分类:Python教程

    自己动手,丰衣足食!Python3网络爬虫实战案例 适宜人群: 萌新小白:我连爬虫也不知道是什么 入门菜鸟:我对一些爬虫的用法还不是很熟练 老司机:我想学习更高级的框架及分布式 从环境基础到进阶分布式 ...

  9. [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

    在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...

最新文章

  1. JavaScript封装方法,兼容参数类型为Number和String
  2. 前后端分离 常用工具汇总
  3. 用c语言编程求分数和,用C语言编程平均分数
  4. 如何进行cad地理配准_【教程】自带高度建筑轮廓如何制作分色图
  5. 程序媛报告:调查了 12,000 名女性开发者发现,女性比男性更懂 Java!
  6. jquery可见性过滤选择器
  7. 暴风影音5完整版(集成Real解码器) 增强去广告版
  8. 新视野大学英语(第三版) 读写教程4 课后答案
  9. 梦幻西游跑商脚本教程
  10. 摄影测量空间后方交会外方位元素的解算程序
  11. 雷丁CAN通讯信号上位机软件
  12. shell脚本实现网络连接的检测
  13. 2022人工智能学习--完整入门攻略
  14. Matlab机器人的仿真(八):绘制机器人运动轨迹(复现)
  15. 【Android】HAL层浅析
  16. Quantopian自学笔记03
  17. Macbook ssh免密登录
  18. 让线程实现暂停,重新启动,停止
  19. k-fold cross validation 相关的帖子、论文 建议收藏哦 ~
  20. 判断极值点是极大值还是极小值

热门文章

  1. 【李宏毅2020 ML/DL】P67-72 Anomaly Detection
  2. 棒!使用.NET Core构建3D游戏引擎
  3. html 两个idv上下居中,Django搭建个人博客:回到顶部浮动按钮、矢量图标、页脚沉底和粘性侧边栏...
  4. http请求pom 客户端_RPC之HttpClient与OkHttp3的实现,服务端知识点
  5. html5的所有标签页,HTML5所有标签总集
  6. FireMonkey 源码学习(5)
  7. 你知道 JavaScript 中的 Arguments 对象都有哪些用途吗?
  8. java测试步骤_java测试框架的方法
  9. 使用 APPLY 来为每行调用表值函数
  10. php 格式化js文件,vscode编辑器在php文件中的html/js格式化解决方案