图片的批量下载 和 爬虫爬取图片数据集

  • 1、图片的批量下载

1、图片的批量下载

数据集是深度学习的一切,没有数据集它什么也不是,现在你知道数据集很重要了吧

代码:

'''
项目名称:爬取公章数据
创建时间:20200514百度图片检索地址:
https://image.baidu.com/search/acjson参考:
https://blog.csdn.net/hujn3016/article/details/78614878  # 参考程序
https://www.cnblogs.com/hum0ro/p/9536033.html  # 遇到错误参考,我没有安装依赖,再运行一次就没有报错了公司章主要有:公章、财务章、法人章、合同专用章、发票专用章下载公章数据:
搜索关键词:
公章:检索到的基本上是圆形章
发票专用章:检索到的基本上是椭圆形章数据转换为灰度图:
circle_red: 前三百个数据保持红色,后面的都转换为灰度图circle_red: 300
cicle_gray: 223
rectangle_red:53
rectangle_gray:53
fingeprint_red:48
fingeprint_gray:48
other:279# 印章提取:
https://blog.csdn.net/u011436429/article/details/80453822
https://blog.csdn.net/wsp_1138886114/article/details/8285838020200519  爬取胸牌数据、胡子数据
Keyword:
胸牌Keyword:
亚洲人胡子、年轻人胡子
搜索一些亚洲名人:周杰伦胡子 刘德华胡子等   胡渣20200525  爬取帽子数据
Keyword:
空姐、空姐服装、军人贝雷帽  鸭舌帽女生  鸭舌帽男生20200703
Keyword:
女士工作布鞋
'''__Author__ = "Shliang"
__Email__ = "shliang0603@gmail.com"import requests
import re
import os
import cv2
from PIL import Imagedef getIntPages(keyword, pages):params = []for i in range(30, 30*pages+30, 30):params.append({'tn':'resultjson_com','ipn': 'rj','ct':'201326592','is': '','fp': 'result','queryWord': keyword,'cl': '2','lm': '-1','ie': 'utf-8','oe': 'utf-8','st': '-1','ic': '0','word': keyword,'face': '0','istype': '2','nc': '1','pn': i,'rn': '30'})url = 'https://image.baidu.com/search/acjson'urls = []for i in params:content = requests.get(url, params=i).textimg_urls = re.findall(r'"thumbURL":"(.*?)"', content)#正则获取方法urls.append(img_urls)#urls.append(requests.get(url,params = i).json().get('data'))开始尝试的json提取方法#print("%d times : " % x, img_urls)return urlsdef fetch_img(path,dataList):if not os.path.exists(path):os.mkdir(path)x = 474for list in dataList:for i in list:print("=====downloading %d/3000=====" % (x + 1))ir = requests.get(i)open(os.path.join(path, '%07d.jpg' % x), 'wb').write(ir.content)x += 1# 图片灰度化
# 注意,opencv读取图片的路径不要有中文,否则可能找不到
def BGR2GRAY(imgs_dir, save_dir):imgs = os.listdir(imgs_dir)# print(len(imgs[300:]), imgs[300:])for i, name in enumerate(imgs):print('name: ----> ', name)img = cv2.imread(os.path.join(imgs_dir, name))gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)print("Saving img: ", name)cv2.imwrite(os.path.join(save_dir, 'finge_gray%d'%i + ".jpg"), gray)# 图片重命名
import shutil
def move_file(src_dir, dst_dir):imgs = os.listdir(src_dir)print(len(imgs), imgs)i = 1042for img in imgs:shutil.copyfile(os.path.join(src_dir, img), os.path.join(dst_dir, "%06d"%i+".jpg"))i+=1# 转换图片格式,并把图片从新命名
def convert_to_RGB(imgs_path, save_imgs_path, start=0):imgs = os.listdir(imgs_path)for img_name in imgs:img = Image.open(os.path.join(imgs_path, img_name))img_convert_RGB = img.convert("RGB")img_convert_RGB.save(os.path.join(save_imgs_path, "%06d.jpg" % start))start += 1if __name__ == '__main__':# 公章图片保存路径stamps_path = r'D:/ZF/1_ZF_proj/2_YOLO/YOLO数据集相关/stamp_datasets'# 胸牌图片保存路径name_tags_path = r'D:\ZF\2_ZF_data\4_胸牌数据\name_tags'# 胡子图片保存路径beard_path = r'D:\ZF\2_ZF_data\5_胡子数据\胡茬'# 帽子图片保存路径hat_path = r'D:\ZF\2_ZF_data\6_帽子和头发数据\帽子数据收集\其他帽子\针织帽男生'# 爬取女士布鞋 保存路径   关键词  女士布鞋woman_cloth_shoes = r'D:\ZF\2_ZF_data\woman_cloth_shoes'# 爬取抽烟数据集  关键词  男生抽烟   女生抽烟smoke_path_boy = r'D:\ZF\2_ZF_data\16_抽烟数据集\spider_smoke\boy'smoke_path_girl = r'D:\ZF\2_ZF_data\16_抽烟数据集\spider_smoke\girl'## url = 'https://image.baidu.com/search/acjson'# dataList = getIntPages('女生抽烟', 100) #依据蔬菜关键词获取50页的图片列表,每页30张图片# fetch_img(smoke_path_girl, dataList) #存取图片# img = cv2.imread('001324.jpg')# gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# print("Saving img: ")# cv2.imwrite('D:/ZF/2_ZF_data/3_stamp_data/res/000611.jpg', gray)# 把图片转成灰度图片# imgs_dir = 'D:/ZF/2_ZF_data/3_stamp_data/finge'# save_dir = 'D:/ZF/2_ZF_data/3_stamp_data/'# BGR2GRAY(imgs_dir, save_dir)# 移动图片# src_dir = r'D:\ZF\2_ZF_data\5_胡子数据\beard\JPEGImages_src'# dst_dir = r'D:\ZF\2_ZF_data\5_胡子数据\beard\JPEGImages'# src_dir = r'D:\ZF\2_ZF_data\woman_cloth_shoes'# dst_dir = r'D:\ZF\2_ZF_data\shoes'# move_file(src_dir, dst_dir)# 转换图片格式,并把图片从新命名imgs_path = r'D:\ZF\2_ZF_data\16_抽烟数据集\spider_smoke\boy'save_imgs_path = r'D:\ZF\2_ZF_data\16_抽烟数据集\spider_smoke\boy_rename'imgs_path2 = r'D:\ZF\2_ZF_data\16_抽烟数据集\spider_smoke\girl'save_imgs_path2 = r'D:\ZF\2_ZF_data\16_抽烟数据集\spider_smoke\girl_rename'imgs_path3 = r'D:\ZF\2_ZF_data\16_抽烟数据集\spider_smoke\boys_and_girls'save_imgs_path3 = r'D:\ZF\2_ZF_data\16_抽烟数据集\spider_smoke\标注抽烟数据集\JPEGImages'# convert_to_RGB(imgs_path, save_imgs_path)# convert_to_RGB(imgs_path2, save_imgs_path2, start=241)convert_to_RGB(imgs_path3, save_imgs_path3, start=111)

之前一直没有放代码,不要意思呀,让各位看官就等了!

可能会报错:requests.exceptions.TooManyRedirects: Exceeded 30 redirects.

参考:https://blog.csdn.net/weixin_39015449/article/details/80128711

1、打开URL页面

2、按F12打开开发者工具页面,然后Ctrl+R就可以看到下面的也买你的域名地址

3、点进入就可以看到[User-Agent]='用户代理编码'

图片的批量下载 和 爬虫爬取图片数据集相关推荐

  1. img绝对路径图片显示_使用python爬虫去风景图片网站批量下载图片

    使用python爬虫(requests,BeautifulSoup)去风景图片网站批量下载图片 1.写代码背景: 今天闲来无事,想弄点图片放到电脑,方便以后使用,故去百度查找一些风景图片网站,发现图片 ...

  2. python爬虫爬取图片无法打开_半小时入门python爬虫爬下网站图片,不能再简单了...

    阅读本文大约需要2分钟 本文旨在为没有爬虫基础的,偶尔想爬虫爬一下某个网站上的图片的初学者使用,如果你已经是对爬虫很熟悉了,下面依然有你感兴趣的东西. 我最近也才正儿八经学习了下爬虫,出于某种需要爬一 ...

  3. python 批量下载网页图片_手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇|python基础教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ /1 前言/ 上篇文章 手把手教你爬取天堂网1920*1080大图片(批量下载)--理论篇我们谈及了天堂网 ...

  4. 【大学生课程实践】实操:使用Python爬虫爬取图片

    实操:使用Python爬虫爬取图片 参考链接: 源码部署 安装源码中的爬虫库 创建 images文件 参考链接: 本博客作为大佬博客学习笔记记录 参考链接:孩子说"你没看过奥特曼" ...

  5. twitter图片视频批量下载

    twitter图片视频批量下载 学python之前试用过一个twitter批量下载图片的软件,甚至没有视频下载,官方收费还是蛮贵的,学了python之后尝试着自己写了一个,把代码发布出来,和大家交流一 ...

  6. 图片批量下载软件-全网图片免费批量下载软件

    图片批量下载软件,今天给大家分享一款免费图片批量下载软件,支持任意格式的图片批量下载,只需要输入关键词或批量导入网页链接即可下载图片.批量下载任意网页上的图片,每个人都可以拥有各种高清图源.支持批量图 ...

  7. 下载网页图片-如何批量下载网页图片-批量图片下载工具免费

    下载网页图片,今天给大家分享一款免费批量下载网页图片软件,支持任意格式的图片批量下载,只需要输入关键词或批量导入网页链接即可下载图片.批量下载任意网页上的图片,每个人都可以拥有各种高清图源.支持批量图 ...

  8. node.js爬虫之下载图片,批量下载图片,控制下载图片并行上限

    首先介绍一下爬虫所需要的的包 require("request"); –get post请求页面 require("cheerio") –解析文本对象为DOM对 ...

  9. python批量下载文件教程_零基础Python教程:教你爬取天堂网1920*1080大图片(批量下载)...

    这篇文章将针对上篇文章的未尽事宜进行完善,完成图片的批量抓取. /2 图片网址解析/ 1. 我们首先来分析一下这个图片的地址在哪里.我们选择图片,然后右击网页检查,可以看到图片的路径,如下图所示. 2 ...

最新文章

  1. Java开发环境的搭建以及使用eclipse从头一步步创建java项目
  2. 2021世界上“最猎奇”“最难的”六大编程语言
  3. 非线性优化:徒手实现LM算法
  4. Android LayoutInflater.inflate源码解析
  5. 数据结构和算法一定要背算法的代码嘛_我们为什么要学习数据结构和算法?
  6. DL之AF:机器学习/深度学习中常用的激活函数(sigmoid、softmax等)简介、应用、计算图实现、代码实现详细攻略
  7. qq第三方登录注册php,QQ第三方登录PHP
  8. 怎么在图片上面加个div层,让它浮于图片上方
  9. CES上那些卖萌耍酷的家用机器人究竟怎么样?还是不太懂人话
  10. python滑稽脸代码_如何用python进行简单的syn flood滑稽(带代码@)
  11. 在html编辑器中插入css,怎么给kindeditor编辑器添加引用(blockquote)标签,并选择css样式...
  12. C语言常见问题(7):Remove this redundant cast
  13. Kubernetes【容器运行时】Kata Containers 与 gVisor
  14. 你迷茫的原因在于读书太少而想的太多,迷茫不知所措时,那就多读书吧!年轻是本钱,但不努力就不值钱
  15. 漫画英语作文怎么写 计算机,漫画类的英语作文怎么写
  16. PP模块工艺路线明细BAPI
  17. 上传大文件(10G)的解决方案
  18. 将exe4j打包的java exe程序反编译过程
  19. 多维数组(2019.10.25)
  20. 利用光猫IPTV通道实现双拨上网成功

热门文章

  1. iOS 生日计算星座
  2. JavaScript 中创建三种消息框:警告框、确认框、提示框
  3. 一个关于异步的纠结问题
  4. oracle SQL性能优化
  5. Vieri离开国际米兰
  6. python简单代码画皮卡丘-实现童年宝可梦,教你用Python画一只属于自己的皮卡丘...
  7. python常用函数-python常用魔法函数
  8. python基础知识资料-Python基础知识汇总
  9. python爬取图片-Python超简单的爬取网站中图片
  10. python 命令行参数-Python3之命令行参数处理