python爬取图片

先上代码：

from urllib.request import Request, urlopen, urlretrieve
from fake_useragent import UserAgent
import time
import redef get_html(rul):# 设置请求头headers = {'User-Agent': UserAgent().random}request = Request(rul, headers=headers)response = urlopen(request)info = response.read().decode()return infodef main():n = int(input('请输入要下载的页数：'))start_time = time.time()for j in range(1, n+1):if j == 1:rul = get_html('http://sc.chinaz.com/tupian/xingganmeinvtupian.html')else:rul = get_html('http://sc.chinaz.com/tupian/xingganmeinvtupian_%s.html' % j)regex = re.compile(r'http://pic\d?.sc.chinaz.com/Files/pic/pic9/\d{,6}/[az]+pic\d{,5}_s.jpg')img = regex.findall(rul)for i in range(len(img)):filename = 'D:\python_work\爬虫\图片\第' + str(j) + '页第' + str(i+1) + '张图片.jpg'url = img[i]urlretrieve(url, filename)print('第' + str(j) + '页第' + str(i+1) + '张图片下载成功')end_time = time.time()spend_time = round(end_time - start_time, 2)print('程序运行', end='')print(spend_time, end='')print('秒')if __name__ == '__main__':main()

以http://sc.chinaz.com/该网站为例，打开首页如图：
随便选个标签，这里我选的“性感美女”：
地址栏显示地址为：http://sc.chinaz.com/tupian/xingganmeinvtupian.html，这里是第一页的地址栏，浏览到第二页时如下：显示地址栏为：http://sc.chinaz.com/tupian/xingganmeinvtupian_2.html，相比第一页网址后面多了个_2,继续往后面浏览发现网址依次是_3 ,_4,_5…，但是尝试按照这个规律打开第一页网址时sc.chinaz.com/tupian/meinvxiezhen_1.html，却报错了所以设置了个if判断语句，来把访问第一页和第二页及以后的页面区别开来，暂时想不出还有啥别的办法。
再来说趴的第一页图片。打开第一页后按F12打开浏览器的开发者模式，把网页刷新一下
刷新之后往下滑可以找到第一张图片的链接信息点击去可以发现图片的链接：http://pic2.sc.chinaz.com/Files/pic/pic9/202008/apic27331_s.jpg
再随便查看其他几张图片的链接地址：
http://pic2.sc.chinaz.com/Files/pic/pic9/202008/apic27281_s.jpg
http://pic.sc.chinaz.com/Files/pic/pic9/202008/apic27263_s.jpg
http://pic.sc.chinaz.com/Files/pic/pic9/201911/zzpic21548_s.jpg
http://pic.sc.chinaz.com/Files/pic/pic9/201708/zzpic5527_s.jpg
如此发现一些规律：
所以构造这样的正则表达式：
regex = re.compile(r'http://pic\d?.sc.chinaz.com/Files/pic/pic9/\d{,6}/[az]+pic\d{,5}_s.jpg')
之后就是一个for循环一次输出第几页的第几张图片，再用urlretrieve(url, filename)来保存下载的文件，最后加了个计时的功能，但是+只能拼接字符串，没法拼接小数，所以就用了三个print把程序运行17.92秒这几个字拼接起来，有老哥有好的想法也可告知一下。运行程序后结果如下，先输入要下载的页数，我输入的4,（尝试下载第一页和前几页都没问题）：
然后再查看下载好的文件：
看起来不错，哈哈，感觉奇怪的技能又增加了。。。

2021-10-5 更新：

import requests
from lxml import etree
import osdef htmlUrl(url):response = requests.get(url)response.encoding = response.apparent_encodinge = etree.HTML(response.text)return edef imgNames():names = e.xpath("//li/a/img[@alt]/@alt")return namesdef imgUrls():lists = []base_imgs = e.xpath("//li/a/img[contains(@src,'img')]/@src")  # https://pic.netbian.com +for i in base_imgs:n_url = 'https://pic.netbian.com' + ilists.append(n_url)return listsdef fileExit():if not os.path.exists('./美女'):os.mkdir('./美女')def download(names, urls):for i in range(len(names)):response = requests.get(urls[i]).contentpath = './美女/' + names[i] + '.jpg'try:with open(path,'wb') as f:f.write(response)print(names[i],'下载成功')except:print(names[i], '-------------下载失败')if __name__ == '__main__':fileExit()url = 'https://pic.netbian.com/4kmeinv/'e = htmlUrl(url)names = imgNames()urls = imgUrls()download(names, urls)

主要思路是：访问网页，按F12找到图片所在的链接，访问图片所在的链接，然后下载。

python爬取图片并且保存到本地指定文件夹内相关推荐

python爬取图片并保存到本地
Python爬取图片(你懂得) requests与Bs4 这两个模块是本文使用的主要模块,requests可以获取连接,bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来 ...
python爬取图片然后保存在文件夹中
python爬取图片然后保存在文件夹中直接上代码: import os import requests import redef getimg(soup,i):print('http:'+ soup ...
matlab 指定路径保存图片_matlab批量保存图像至指定文件夹（revised） mkdir cd 等 | 学步园...
把上一篇文章(点这里进入)修改了一下,可以批量保存至指定文件夹使用到的关键语句为 mkdir创建文件夹 cd 获得当前work directory的字符串 cd D:\test 进入 ...
php下载图片保存到临时文件夹,57、PHP将上传到临时文件夹的文件移动到服务器指定文件夹内...
本节用到的文件操作函数: 1.is_uploaded_file() 函数判断指定的文件是否是通过 HTTP POST 上传的. 2.move_uploaded_file() 函数将上传的文件移动到新位 ...
自动导入指定文件夹内的文献到 Endnote 中
简介最近正着手写一篇综述文章,来整体把握下自己研究领域的历史.方法.最新进展与趋势.由于需要对相关文献进行搜集.阅读和分类.庄小编使用 EndNote 来进行管理文献. 在使用较长时间后,整理了几个 ...
java文件名大小_java 比较指定文件夹内.txt文件名的大小
我写了一个程序:每过一定时间向指定文件夹内写一个按时间命名的.txt文件现在想实现最新的txt文件和最原先的txt文件内容比对但是不知道如何获得这两个文家的内容.packagetest;import. ...
php遍历文件夹下文件内容_PHP递归遍历指定文件夹内的文件实现方法
今天早上在地铁上看了关于文件和文件夹的一章,正好最近刚搞懂linux的文件系统,觉得对文件属性的访问跟Shell命令很像,所以想晚上来实践一下. 发现php的文件夹函数好像没有提供遍历文件夹下的所有文 ...
MATLAB 删除指定文件夹内的文件夹及多个子文件夹
初入实验室,本科使用过一点matlab,遗忘的很快.索性用博客记录使用期间碰到的一些问题及解决方案. 文章目录 1. 问题来源 2. 代码 2.1. MATLAB Documentation - Ma ...
python opencv 从Intel Realsense D435 视频流中读取并显示帧，按下空格将图像保存到指定文件夹，按下回车自动以一定时间间隔保存图像至指定文件夹
参考文章1:opencv之读入一幅图像,显示图像以及如何保存一副图像,基础操作参考文章2:python-OpenCV2中 cv2.VideoCapture(),read(),waitKey()的使用 ...

python爬取图片并且保存到本地指定文件夹内

python爬取图片

python爬取图片并且保存到本地指定文件夹内相关推荐

最新文章

热门文章