本文目的

因为本人最近在学习基于YOLO的检测算法,在进行YOLO训练自己的模型时需要大量的照片作为数据集,所以就有了用python进行爬虫图片的想法。在网上简单的学习后,成功的对百度图片上的内容实现自动搜集的功能。本篇作为笔记在此储存,如有侵权联系删除。

实现代码

import requests
import re
import os
import time# 获取图片url连接
def get_parse_page(pn,name):for i in range(int(pn)):# 1.获取网页print('正在获取第{}页'.format(i+1))# 百度图片首页的url# name是你要搜索的关键词# pn是你想下载的页数#'https://image.baidu.com/'url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%s&pn=%d' %(name,i*20)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '}# 发送请求,获取相应response = requests.get(url, headers=headers)html = response.content.decode()# print(html)# 2.正则表达式解析网页# "objURL":"http://n.sinaimg.cn/sports/transform/20170406/dHEk-fycxmks5842687.jpg"results = re.findall('"objURL":"(.*?)",', html) # 返回一个列表# 根据获取到的图片链接,把图片保存到本地save_to_txt(results, name,i)
def save_to_txt(results, name, i):j = 0# 在当目录下创建文件夹if not os.path.exists('./' + name):os.makedirs('./' + name)# 下载图片for result in results:print('正在保存第{}个'.format(j))try:pic = requests.get(result, timeout=10)time.sleep(1)except:print('当前图片无法下载')j += 1continue# 把图片保存到文件夹number=name+str(+(i*59)+j)file_full_name = './' + name + '/' + number + '.jpg'with open(file_full_name, 'wb') as f:f.write(pic.content)j += 1
if __name__ == '__main__':name = input('请输入下载的关键词:')pn = input('你想下载前几页(1页有60张):')get_parse_page(pn, name)

利用python requests库在百度图库上下载图片相关推荐

  1. 利用python requests库模拟登陆知乎

    当初搜模拟登陆的时候在知乎上也找到一些内容. 以下是代码 import requests import time import json import os import re import sys ...

  2. 利用Python requests库模拟登陆学校教务系统

    在研究了一会requests库的实现之后.发现requests的确非常强大.. 几行代码就登陆上了学校的教务系统,但也许是我们学校的教务系统做的太烂了吧23333.动不动就血崩. 下面是代码. imp ...

  3. 利用python requests库爬取淘宝商品评论_python

    文章目录 一.起因 二.项目实现 1. 分析实现方式 2. 编码实现 3. 完整代码 三.思考与改进 一.起因 看到一篇文章,感觉自己可以动手试试 Python 不用selenium 带你高效爬取京东 ...

  4. python 中文姓名库,Python Requests库上传文件中文文件名处理方法是什么

    使用Python Requests库,提交POST请求上传文件,不支持中文文件名? 使用Python Requests库,向微信服务器上传媒体问题. 当使用英文文件名称,上传时,一切OK. 当下面代码 ...

  5. python 读取geotiff_科学网—利用python GDAL库读写geotiff格式的遥感影像方法 - 张伟的博文...

    (1)利用python GDAL库读写geotiff格式的遥感影像方法,具有很好的参考价值,不错! from osgeo import gdal import numpy as np def read ...

  6. Python采集全国各地百度地图上店铺POI数据(母婴、美食等)

    Python采集全国各地百度地图上店铺POI数据 1. 注册百度地图开放平台账号 先注册百度地图开发平台账号,创建应用,获得AK 2. 通过Python批量检索不同城市店铺POI数据 2.1 大致思路 ...

  7. 利用python+selenium爬取derwent数据库上的patents

    利用python+selenium爬取derwent数据库上的patents 需求: 登陆web of science,并进入derwent数据库,按照公司excel列表依次进行搜索,并将所有搜索道德 ...

  8. python读取tiff影像_科学网—利用python GDAL库读写geotiff格式的遥感影像方法 - 张伟的博文...

    (1)利用python GDAL库读写geotiff格式的遥感影像方法,具有很好的参考价值,不错! from osgeo import gdal import numpy as np def read ...

  9. Python requests库中文乱码问题汇总(编码)

    Python requests库中文乱码问题汇总(编码) 在用requests爬取网页时,经常会碰到网页的编码问题导致中文乱码 <dt>ç¹è²æå¡</dt> 这时首先查看页 ...

  10. Python - Requests库下载图片

    Python - Requests库下载图片 import requests# 获取网络图片资源 r = requests.get('https://www.baidu.com/img/bd_logo ...

最新文章

  1. RDKit | 化合物库的相似性分析
  2. ubuntu下编译php扩展的时候报缺少pcre解决办法
  3. word转pdf后公式出现乱码怎么办?
  4. 企业文件服务器资源管理方案
  5. 10分钟带你探索css中更为奇妙的奥秘
  6. matlab disteclud,机器学习实战ByMatlab(3)K-means算法
  7. mysql c语言数字转字符串函数_C++_c语言标准库中字符转换函数和数字转换函数,字符转换为数字: #includest - phpStudy...
  8. html贪吃蛇怎么加蛇尾,贪吃蛇制作移动+pc
  9. 22 个最常用的Python包
  10. Todd.log - a place to keep my thoughts on programming
  11. 出现 Unexpected token T in JSON at position 0 ,at JSON.parse (<anonymous>) 的解决方法
  12. 动软多数据库链接类实例
  13. JS递归的用法JavaScript递归)
  14. java垃圾回收简介
  15. valser网站(计算机视觉CV,CG学习交流社区)
  16. 计算机工程本科旧金山找工,2020年旧金山大学本科热门专业
  17. linux安装maven并配置环境变量
  18. 去哪儿霸面题目——泪
  19. 用户画像建模(客户基本属性表,客户营销信息表)
  20. Vue+Cesium创建项目并加载地图全过程

热门文章

  1. Exadata使用EXAchk进行健康检查
  2. Linux下使用nmap扫描端口
  3. 群晖系统服务器设置,私人云搭建 篇二:群晖系统搭建和初步设置的不正确指北...
  4. java物流bos,宅急送BOS物流项目
  5. Log4j日志等级设置详解
  6. 调试sim800L模块
  7. 如何让微信好友永远拉黑不了你?
  8. 汇川技术小型PLC梯形图编程系列教程(1)小型PLC型号H123U简介
  9. 实用供暖通风空调设计手册 第三版_实用供热空调设计手册(第三版)“流体输配与水力平衡”技术专题讨论会...
  10. linux压缩命令常用:tar,tgz,gzip,zip,rar