图集谷-写真集-爬虫-1.0

相信大家已经迫不及待地想想爬取自己想要的写真集了，那么我话不多说，直接上代码。

# 导入包
import os, time, requests
from lxml import etree# 定义请求头
headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 UOS'
}# 传入数据,例如'ttps://www.tujigu.net/a/33527'
# Num就取值33527
# Page_Num取值该写真集的页数
Num = input('enter the Num:')
Pages_Num = int(input('enter the Page_Num:')) + 1# 创建图片url列表
img_src_list = []# 创建url列表,并将写真集首页网页url写入网页列表中
url_header = 'https://www.tujigu.net/a/'
url_head = url_header + str(Num) +'/'
urls = [url_head]
time.sleep(1)    # 防止服务器封IP# 在网页列表中写入其他页面url
for a in range(2, int(Pages_Num)):url_other = url_head + str(a) +'.html'urls.append(url_other)# 获取所有图片url,并写入图片url列表中
for url in urls:res = requests.get(url, headers=headers)html = etree.HTML(res.text)img_original = html.xpath('//div[@class="content"]/img/@src')for img_src in img_original:img_src_list.append(img_src)time.sleep(1)# 创建文件夹
res = requests.get(url=url_head, headers=headers)
res.encoding = 'utf-8'
html = etree.HTML(res.text)
img_alt = html.xpath('//div[@class="content"]/img/@alt')[0]
path_name = '/data/home/liu/Pictures/' + str(img_alt)    #此处引号中地址可改为其他地址
if not os.path.exists(path_name):os.mkdir(path_name)
path = path_name + '/'# 下载图片
for src in img_src_list:img_data = requests.get(src, headers=headers).contentname = src.split('/')[-1]with open(path + name, 'wb') as f:print(f'正在为您下载图片:{name}')f.write(img_data)f.close()time.sleep(1)
print('下载完成!!!')

代码中的path_name，由于我编写这个爬虫的时候用的是Linux系统，所以文件目录不一样，各位用windows系统的小伙伴儿们请自行修改。

这个爬虫，在我编写完成后，感觉有一点儿繁琐，所以，之后我会对这个代码进行修改。让我们期待下一个更加优秀的爬虫吧>_<

感谢大家的阅读，如果大家觉得还可以的话，可以酌情打赏一下（可怜巴巴...）

图集谷-写真集-爬虫-1.0相关推荐

图集谷-写真集-爬虫-2.0
经过,对上一版爬虫的仔细研究,我换了一个编写思路,写了这个2.0版本. 依然废话不多说,直接上代码. # 导入库 import os, time, requests# 请求头 headers = {' ...
图集谷-写真集-爬虫-2.1
为了使爬虫代码更加扁平化,因此,我对2.0版本爬虫进行了一定的修改. 话不多说,请看代码. # 导入库 import os, time, requests# 请求头 headers = {'User- ...
【python】秀人集-写真集-爬虫-1.0
最近没有怎么关注图集谷网站,结果今天打开看看,结果官方直接关服了,只留下需要付费的图集岛网址[笑哭] 看到有人在我的文章下留言,这表示我的写作方向是有一定的受众的,这我就放心了.[吾心甚慰] 好的,长 ...
【python】秀人集-写真集-爬虫-2.0
好久不见呀,各位.[/坏笑] 自从上次发布文章已经过去了许久,之前承诺过的2.0版本我就现在嘛出来吧.(毕竟,评论区都已经开始催了,拖不了了-) emm-具体的网页链接我就不写在正文了,我会放在代码区 ...
微博热搜榜爬虫2.0
微博热搜榜爬虫2.0 6月份出了一个微博热搜爬虫,在我电脑上设置了自动化12点爬取,结果到了9月份,执行不了. 一直没时间弄,今天来更新一下: 解决了两个问题, 1 >之前的话请求头比较单一,只 ...
小小Python爬虫（0）
#目前问题:爬一会就报"RuntimeError: can't start new thread"错误 #Python的语法有些不太适应,这两天从网上搬了些代码组了个小爬虫,把糗事 ...
Python网络爬虫从0到1----（一）爬虫基础
0 写在前面: 这是我第一次在csdn上写博客,markdown还用的不是很熟练(所以排版会有一点点乱-_-).这个blog系列的初衷是记录下来我从0开始学习网络爬虫的全过程,也希望能和大家一起交流. ...
新浪微博爬虫v1.0
心血来潮想看看自己这几年都去过什么地方,因为我的动态信息基本上都发布在微博上面的,上面也记录了地址,我查看了一下,即使定位名称显示的笼统,但是定位了的都有较详细的经纬度.于是就想做个爬虫,把数据搞下来 ...
python入门代码示例-Python入门简单的静态网页爬虫3.0 (爬虫的示例代码）
一.需求分析爬取百度词条Python页面的相关100个页面,分析目标:分析(url格式数据格式网页编码 ).url格式限定了爬取的网页格式避免一些不相干的网页的爬取.数据格式主要是内容中相关的标 ...

图集谷-写真集-爬虫-1.0

图集谷-写真集-爬虫-1.0相关推荐

最新文章

热门文章