利用python requests库在百度图库上下载图片
本文目的
因为本人最近在学习基于YOLO的检测算法,在进行YOLO训练自己的模型时需要大量的照片作为数据集,所以就有了用python进行爬虫图片的想法。在网上简单的学习后,成功的对百度图片上的内容实现自动搜集的功能。本篇作为笔记在此储存,如有侵权联系删除。
实现代码
import requests
import re
import os
import time# 获取图片url连接
def get_parse_page(pn,name):for i in range(int(pn)):# 1.获取网页print('正在获取第{}页'.format(i+1))# 百度图片首页的url# name是你要搜索的关键词# pn是你想下载的页数#'https://image.baidu.com/'url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%s&pn=%d' %(name,i*20)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '}# 发送请求,获取相应response = requests.get(url, headers=headers)html = response.content.decode()# print(html)# 2.正则表达式解析网页# "objURL":"http://n.sinaimg.cn/sports/transform/20170406/dHEk-fycxmks5842687.jpg"results = re.findall('"objURL":"(.*?)",', html) # 返回一个列表# 根据获取到的图片链接,把图片保存到本地save_to_txt(results, name,i)
def save_to_txt(results, name, i):j = 0# 在当目录下创建文件夹if not os.path.exists('./' + name):os.makedirs('./' + name)# 下载图片for result in results:print('正在保存第{}个'.format(j))try:pic = requests.get(result, timeout=10)time.sleep(1)except:print('当前图片无法下载')j += 1continue# 把图片保存到文件夹number=name+str(+(i*59)+j)file_full_name = './' + name + '/' + number + '.jpg'with open(file_full_name, 'wb') as f:f.write(pic.content)j += 1
if __name__ == '__main__':name = input('请输入下载的关键词:')pn = input('你想下载前几页(1页有60张):')get_parse_page(pn, name)
利用python requests库在百度图库上下载图片相关推荐
- 利用python requests库模拟登陆知乎
当初搜模拟登陆的时候在知乎上也找到一些内容. 以下是代码 import requests import time import json import os import re import sys ...
- 利用Python requests库模拟登陆学校教务系统
在研究了一会requests库的实现之后.发现requests的确非常强大.. 几行代码就登陆上了学校的教务系统,但也许是我们学校的教务系统做的太烂了吧23333.动不动就血崩. 下面是代码. imp ...
- 利用python requests库爬取淘宝商品评论_python
文章目录 一.起因 二.项目实现 1. 分析实现方式 2. 编码实现 3. 完整代码 三.思考与改进 一.起因 看到一篇文章,感觉自己可以动手试试 Python 不用selenium 带你高效爬取京东 ...
- python 中文姓名库,Python Requests库上传文件中文文件名处理方法是什么
使用Python Requests库,提交POST请求上传文件,不支持中文文件名? 使用Python Requests库,向微信服务器上传媒体问题. 当使用英文文件名称,上传时,一切OK. 当下面代码 ...
- python 读取geotiff_科学网—利用python GDAL库读写geotiff格式的遥感影像方法 - 张伟的博文...
(1)利用python GDAL库读写geotiff格式的遥感影像方法,具有很好的参考价值,不错! from osgeo import gdal import numpy as np def read ...
- Python采集全国各地百度地图上店铺POI数据(母婴、美食等)
Python采集全国各地百度地图上店铺POI数据 1. 注册百度地图开放平台账号 先注册百度地图开发平台账号,创建应用,获得AK 2. 通过Python批量检索不同城市店铺POI数据 2.1 大致思路 ...
- 利用python+selenium爬取derwent数据库上的patents
利用python+selenium爬取derwent数据库上的patents 需求: 登陆web of science,并进入derwent数据库,按照公司excel列表依次进行搜索,并将所有搜索道德 ...
- python读取tiff影像_科学网—利用python GDAL库读写geotiff格式的遥感影像方法 - 张伟的博文...
(1)利用python GDAL库读写geotiff格式的遥感影像方法,具有很好的参考价值,不错! from osgeo import gdal import numpy as np def read ...
- Python requests库中文乱码问题汇总(编码)
Python requests库中文乱码问题汇总(编码) 在用requests爬取网页时,经常会碰到网页的编码问题导致中文乱码 <dt>ç¹è²æå¡</dt> 这时首先查看页 ...
- Python - Requests库下载图片
Python - Requests库下载图片 import requests# 获取网络图片资源 r = requests.get('https://www.baidu.com/img/bd_logo ...
最新文章
- RDKit | 化合物库的相似性分析
- ubuntu下编译php扩展的时候报缺少pcre解决办法
- word转pdf后公式出现乱码怎么办?
- 企业文件服务器资源管理方案
- 10分钟带你探索css中更为奇妙的奥秘
- matlab disteclud,机器学习实战ByMatlab(3)K-means算法
- mysql c语言数字转字符串函数_C++_c语言标准库中字符转换函数和数字转换函数,字符转换为数字:
#includest - phpStudy...
- html贪吃蛇怎么加蛇尾,贪吃蛇制作移动+pc
- 22 个最常用的Python包
- Todd.log - a place to keep my thoughts on programming
- 出现 Unexpected token T in JSON at position 0 ,at JSON.parse (<anonymous>) 的解决方法
- 动软多数据库链接类实例
- JS递归的用法JavaScript递归)
- java垃圾回收简介
- valser网站(计算机视觉CV,CG学习交流社区)
- 计算机工程本科旧金山找工,2020年旧金山大学本科热门专业
- linux安装maven并配置环境变量
- 去哪儿霸面题目——泪
- 用户画像建模(客户基本属性表,客户营销信息表)
- Vue+Cesium创建项目并加载地图全过程
热门文章
- Exadata使用EXAchk进行健康检查
- Linux下使用nmap扫描端口
- 群晖系统服务器设置,私人云搭建 篇二:群晖系统搭建和初步设置的不正确指北...
- java物流bos,宅急送BOS物流项目
- Log4j日志等级设置详解
- 调试sim800L模块
- 如何让微信好友永远拉黑不了你?
- 汇川技术小型PLC梯形图编程系列教程(1)小型PLC型号H123U简介
- 实用供暖通风空调设计手册 第三版_实用供热空调设计手册(第三版)“流体输配与水力平衡”技术专题讨论会...
- linux压缩命令常用:tar,tgz,gzip,zip,rar