今天写了一个 百度图片爬虫,代码如下

import requests
import re
import os
import timeheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'}
name = input('您要爬取什么图片')
num = 0
x = input('您要爬取几张呢?,输入1等于60张图片。')
for i in range(int(x)):name_1 = 'D:\\图片\\'url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='+name+'&pn='+str(i*30)res = requests.get(url,headers=headers)htlm_1 = res.content.decode()a = re.findall('"objURL":"(.*?)",',htlm_1)if not os.path.exists(name_1):os.makedirs(name_1)for b in a:num = num +1try:img = requests.get(b)except Exception as e:print('第'+str(num)+'张图片无法下载------------')print(str(e))continuef = open(name_1+name+str(num)+'.jpg','ab')print('---------正在下载第'+str(num)+'张图片----------')f.write(img.content)f.close()
print('下载完成')

三十行的代码就搞定了,有在学习爬虫的同学可以 参考一下,
后面会发一个教程:如何把代码封装成一个.exe可运行的文件,这样就可以自己写好代码 发给其他人 直接运行即可 不用安装插件。

------------------------------------------------
5-10
优化一下爬虫 感谢@编程副本 提出的一个小bug:会爬取重复图片。
更新如下:

import requests
import re
import os
import time
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'}
name = input('您要爬取什么图片')
num = 0
num_1 = 0
num_2 = 0
x = input('您要爬取几张呢?,输入1等于60张图片。')
list_1 = []
for i in range(int(x)):name_1 = os.getcwd()name_2 = os.path.join(name_1,'图片')url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='+name+'&pn='+str(i*30)res = requests.get(url,headers=headers)htlm_1 = res.content.decode()a = re.findall('"objURL":"(.*?)",',htlm_1)if not os.path.exists(name_2):os.makedirs(name_2)for b in a:try:b_1 = re.findall('https:(.*?)&',b)b_2 = ''.join(b_1)if b_2 not in list_1:num = num +1img = requests.get(b)f = open(os.path.join(name_1,'图片',name+str(num)+'.jpg'),'ab')print('---------正在下载第'+str(num)+'张图片----------')f.write(img.content)f.close()list_1.append(b_2)elif b_2 in list_1:num_1 = num_1 + 1 continueexcept Exception as e:print('---------第'+str(num)+'张图片无法下载----------')num_2 = num_2 +1continue
print('下载完成,总共下载{}张,成功下载:{}张,重复下载:{}张,下载失败:{}张'.format(num+num_1+num_2,num,num_1,num_2))

如代码有问题欢迎大家私信或者在此贴下回复,感谢各位!

非学无以广才,非志无以成学!

最简洁的百度图片爬虫相关推荐

  1. python爬虫:百度图片爬虫代码

    代码里的logid我也不确定有没有时效,如果有的话请大家自行替换,就在数据包标头那里,如图 代码来了,来了,来了....... 详细解说在这里:百度图片爬虫代码详解 #Author:Griffy #D ...

  2. python:从零开始的百度图片爬虫

    python百度图片爬虫 最近打算尝试接触人工智障,于是发现需要先搞到数据集,制作数据集又需要带量数据 我打算先搞个图片判断的,类似于看有没有猫这种 所以我需要数据集,需要图片,需要很多很多图片 所以 ...

  3. python如何爬取图片_百度图片爬虫-python版-如何爬取百度图片?

    上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://5912119.blog.51cto.com/5902119/1771391 这一篇我想写写如何爬取百度图片的爬虫, ...

  4. 【python--爬虫】百度图片爬虫

    如何快速收集某个关键字的图片呢?有的小伙伴可能会说百度图片,bingo答对了!o( ̄▽ ̄)o,博主本次就讲解下如何爬取百度图片 环境准备 为了优雅的享用这盘python爬虫大餐,请各位读者大大准备要以 ...

  5. 百度图片爬虫,爬取高清图片

    在做深度学习研究与应用的时候,经常需要爬取样本,例如,超分辨率重建,实际的训练与产品应用中,你需要爬取一些高清的图片,下面提供一个简单的爬虫: # coding=utf-8 import re imp ...

  6. 百度图片排名:SEO常用的5个技巧!

    图片SEO是网站内容优化重要的一个元素,但经常被站长所忽略,随着百度图腾的上线,图片版权的保护,将为站长提供更多的潜在流量. 但在多年的SEO工作中,图片SEO并没有一个统一的优化流程,所有的策略与技 ...

  7. python3 爬取百度图片

    深度学习中,从网上下载大量的图片数据,肯定是必须的.作为python爬虫小白,记录一下此过程. 一.分析网页结构 1.在百度图片中输入狗,得到如下所示的网址 http://image.baidu.co ...

  8. python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片(一)

    什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

  9. python爬去百度图片_爬虫篇| 爬取百度图片(一)

    什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

最新文章

  1. LINUX UMASK详解
  2. mysql数据库简单介绍_数据库的简单介绍
  3. linux 块编辑,vim中的可视块编辑
  4. STL之partial_sum
  5. 1.1-nfs部署和优化-1
  6. 智能一代云平台(十九):选修课---类似秒杀的高并发业务
  7. 学python lesson3
  8. 多个Excel文件合并成一个文件
  9. java 排队实现_java中的优先列队-PriorityQueue源码实现解析
  10. 超全面!完全没有设计基础的新手如何做好PPT配色?(附神器)
  11. Windows CMD常用命令大全(所见即所得)
  12. Web大学生网页作业成品——篮球网站设计与实现(HTML+CSS)
  13. 许晓斌_Maven实战(八)——常用Maven插件介绍(下)
  14. 朱松纯将回国加入清华,曾对李飞飞创建ImageNet有启示
  15. 简单的APP与PLC通讯
  16. 1740 蜂巢迷宫(模拟,暴力,剪枝)
  17. Android使用Bugly实现静默安装/自动安装app
  18. 【C】C语言中的设计模式
  19. 渡一教育学习面向对象
  20. 深入Preact源码分析(4.20更新)

热门文章

  1. 英语口语290之每日十句口语
  2. Flink进阶系列--类加载机制
  3. 稻草人项目--( day04 )
  4. mcu芯片是指什么芯片
  5. [附源码]计算机毕业设计JAVAjsp基于web的停车收费管理系统
  6. 使用UUID作为数据库主键产生的问题及解决方案
  7. Linux发行版制作指南(转)
  8. 用Python实现一个简单好用的12306查票系统
  9. 人脸识别技术原理你知道吗?
  10. 量化交易入门先看这几种常见的策略分类