简单爬虫 爬取百度图片并批量重命名
一:爬取百度图片
注意:如果提示requests库不存在,命令行运行 pip install requests 即可
import json
import requests
import threadingdef download_img(image_url, word, index):img_name = word + "_" + str(index)try:response_img = requests.get(image_url, headers={"Referer": "http://image.baidu.com"})with open("images/" + word + "/" + str(img_name) + ".jpg", 'wb') as f:f.write(response_img.content)except Exception as e:print("download_img")print(e)def get_page(word, pn, rn):try:url = "http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=" + word + "&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=©right=&word=" + word + "&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&fr=&expermode=&force=&cg=star&pn=" + str(pn) + "&rn=" + str(rn) + "&gsm=&1568680507018="index = pn + 1response = requests.get(url)obj = json.loads(response.text)items = obj['data']for item in items:if 'middleURL' in item:url_img = item['middleURL']threading.Thread(target=download_img, args=[url_img, word, index]).start()index += 1except Exception as e:print("get_page")print(e)def get_n_page(page_num, word, pn, rn):for _ in range(page_num):get_page(word, pn, rn)pn += rndef main():# 程序修改处word = "苍老师" # 查询关键字pn = 0 # 开始页码rn = 20 # 每页数量page_count = 3 # 获取页数import osif not os.path.isdir("images/" + word):os.makedirs("images/" + word)# get_page(word, pn, rn) # 获取单页方法get_n_page(page_count, word, pn, rn) # 获取多页方法main()
二:图片批量重命名
import osdef rename(dir_path, name):index = 0for file in os.listdir(dir_path):old_file_path = os.path.join(dir_path, file)new_file_path = os.path.join(dir_path, name + '.' + str(index) + '.jpg')os.rename(old_file_path, new_file_path)index += 1if __name__ == '__main__':# 程序修改处dir_path = r"图片所在文件夹的路径"rename(dir_path, 'dj')
简单爬虫 爬取百度图片并批量重命名相关推荐
- python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...
- python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片(一)
什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
- python爬虫爬取百度图片,python爬虫篇2:爬取百度图片
入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...
- Python3 简单爬虫爬取百度贴吧帖子
使用Python3.x的版本 对http://tieba.baidu.com/p/2005436135,该百度贴吧帖子进行爬取操作. 一.使用到的库. 1. urllib.request :对 ...
- python爬取百度百科词条-python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
- python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
- 爬虫爬取百度图片--python3
1.百度图库 https://image.baidu.com/ 2.自定义爬取类型和张数 #encoding=utf8 import json import itertools import urll ...
- 详细分析如何利用python批量爬取百度图片
这篇文章主要写的是利用python网络爬虫批量来爬取百度图片并保存到文件夹中. 首先我们打开百度图片这个网页:https://image.baidu.com/ 我们现在随便搜一个类型的图片,比如小狗, ...
- python爬虫爬取百度贴吧图片,requests方法
每天一点点,记录学习 近期爬虫项目,看完请点赞哦---: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方 ...
- Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片
Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...
最新文章
- Android UI Button 和GridView 的设计--优化(2)
- hadoop周边 框架体系
- python爬虫原理-python学习之python爬虫原理
- 五菱宏光s1图片及价格图片_全新五菱宏光S来了,还在念念不忘S1吗?国六机头还颜值在线...
- Nginx 容器教程
- 【深度学习】Keras vs PyTorch vs Caffe:CNN实现对比
- django链接mysql网页显示数据_使用Django连接mysql数据库并显示在网页上
- 74 计算机图形学开源处理库
- fort77编译器安装
- unix/linux系统中文件分为哪些类型?,到底该如何理解 Unix/Linux 的文件系统?看这篇就知道了...
- Java适配器的设计模式
- 初识【jQuery】,入门必看!
- java rfb,github上开源的超轻量级人脸检测模型及github地址。
- HDU1042 n!【大数+万进制】
- 正方教务管理系统服务器崩溃,正方教务管理系统应用中存在的问题及应对策略...
- 插件对计算机的运行有什么影响吗,电脑插件太多导致电脑运行缓慢怎么办 - 驱动管家...
- Ubuntu虚拟机实现与主机之间复制粘贴
- 物联网-移远M26模块初识及资料分享
- Unhandled exception in al.exe(KERNELBASE.DLL):0xE06D7363:Microsoft C++Exception
- ROS使用yocs_smoother_velocity做速度平滑处理
热门文章
- 台式机电源选购资料调研+为什么50%的时候负载功率最大+80PLUS的解释
- RT-Thread (3) 为RTT增加SP485驱动||RTT UART设备
- Windows下数据库密码的修改
- 使用Hash表时,针对Hash冲突的几个常见解决办法
- php sql注入教程,PHP简单高效防御sql注入的方法分享
- 【JAVA程序设计】(C00005)基于springboot的进存销管理系统
- Unity 粒子特效(Particle System)大小自适应和层级的一些问题
- SIM800C 不停的回复Call Ready NET指示灯一直不能进入3秒闪烁的状态
- Power Apps 入门介绍
- 更改Word文档中自带插入公式中的字体解决方案