相信大家已经迫不及待地想想爬取自己想要的写真集了,那么我话不多说,直接上代码。

# 导入包
import os, time, requests
from lxml import etree# 定义请求头
headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 UOS'
}# 传入数据,例如'ttps://www.tujigu.net/a/33527'
# Num就取值33527
# Page_Num取值该写真集的页数
Num = input('enter the Num:')
Pages_Num = int(input('enter the Page_Num:')) + 1# 创建图片url列表
img_src_list = []# 创建url列表,并将写真集首页网页url写入网页列表中
url_header = 'https://www.tujigu.net/a/'
url_head = url_header + str(Num) +'/'
urls = [url_head]
time.sleep(1)    # 防止服务器封IP# 在网页列表中写入其他页面url
for a in range(2, int(Pages_Num)):url_other = url_head + str(a) +'.html'urls.append(url_other)# 获取所有图片url,并写入图片url列表中
for url in urls:res = requests.get(url, headers=headers)html = etree.HTML(res.text)img_original = html.xpath('//div[@class="content"]/img/@src')for img_src in img_original:img_src_list.append(img_src)time.sleep(1)# 创建文件夹
res = requests.get(url=url_head, headers=headers)
res.encoding = 'utf-8'
html = etree.HTML(res.text)
img_alt = html.xpath('//div[@class="content"]/img/@alt')[0]
path_name = '/data/home/liu/Pictures/' + str(img_alt)    #此处引号中地址可改为其他地址
if not os.path.exists(path_name):os.mkdir(path_name)
path = path_name + '/'# 下载图片
for src in img_src_list:img_data = requests.get(src, headers=headers).contentname = src.split('/')[-1]with open(path + name, 'wb') as f:print(f'正在为您下载图片:{name}')f.write(img_data)f.close()time.sleep(1)
print('下载完成!!!')

代码中的path_name,由于我编写这个爬虫的时候用的是Linux系统,所以文件目录不一样,各位用windows系统的小伙伴儿们请自行修改。

这个爬虫,在我编写完成后,感觉有一点儿繁琐,所以,之后我会对这个代码进行修改。让我们期待下一个更加优秀的爬虫吧>_<

感谢大家的阅读,如果大家觉得还可以的话,可以酌情打赏一下(可怜巴巴...)

图集谷-写真集-爬虫-1.0相关推荐

  1. 图集谷-写真集-爬虫-2.0

    经过,对上一版爬虫的仔细研究,我换了一个编写思路,写了这个2.0版本. 依然废话不多说,直接上代码. # 导入库 import os, time, requests# 请求头 headers = {' ...

  2. 图集谷-写真集-爬虫-2.1

    为了使爬虫代码更加扁平化,因此,我对2.0版本爬虫进行了一定的修改. 话不多说,请看代码. # 导入库 import os, time, requests# 请求头 headers = {'User- ...

  3. 【python】秀人集-写真集-爬虫-1.0

    最近没有怎么关注图集谷网站,结果今天打开看看,结果官方直接关服了,只留下需要付费的图集岛网址[笑哭] 看到有人在我的文章下留言,这表示我的写作方向是有一定的受众的,这我就放心了.[吾心甚慰] 好的,长 ...

  4. 【python】秀人集-写真集-爬虫-2.0

    好久不见呀,各位.[/坏笑] 自从上次发布文章已经过去了许久,之前承诺过的2.0版本我就现在嘛出来吧.(毕竟,评论区都已经开始催了,拖不了了-) emm-具体的网页链接我就不写在正文了,我会放在代码区 ...

  5. 微博热搜榜爬虫2.0

    微博热搜榜爬虫2.0 6月份出了一个微博热搜爬虫,在我电脑上设置了自动化12点爬取,结果到了9月份,执行不了. 一直没时间弄,今天来更新一下: 解决了两个问题, 1 >之前的话请求头比较单一,只 ...

  6. 小小Python爬虫(0)

    #目前问题:爬一会就报"RuntimeError: can't start new thread"错误 #Python的语法有些不太适应,这两天从网上搬了些代码组了个小爬虫,把糗事 ...

  7. Python网络爬虫从0到1----(一)爬虫基础

    0 写在前面: 这是我第一次在csdn上写博客,markdown还用的不是很熟练(所以排版会有一点点乱-_-).这个blog系列的初衷是记录下来我从0开始学习网络爬虫的全过程,也希望能和大家一起交流. ...

  8. 新浪微博爬虫v1.0

    心血来潮想看看自己这几年都去过什么地方,因为我的动态信息基本上都发布在微博上面的,上面也记录了地址,我查看了一下,即使定位名称显示的笼统,但是定位了的都有较详细的经纬度.于是就想做个爬虫,把数据搞下来 ...

  9. python入门代码示例-Python入门简单的静态网页爬虫3.0 (爬虫的示例代码)

    一.需求分析 爬取百度词条Python页面的相关100个页面,分析目标:分析(url格式 数据格式 网页编码 ).url格式限定了爬取的网页格式避免一些不相干的网页的爬取.数据格式主要是内容中相关的标 ...

最新文章

  1. 08查找满足条件的n个数
  2. 光伏电池组 局部阴影时输出模型 P-U曲线 I-U曲线 simulink实现 MPPT-Model
  3. Java Stream简介, 流的基本概念.
  4. JAVA语言中的反射机制
  5. 数据分析工具篇pyspark应用详解——Pyspark实现PCA主成分
  6. labview项目实例_labview操作者框架
  7. SLS机器学习最佳实战:批量时序异常检测
  8. 如何在C#窗体中定义全局变量
  9. java反编译数组_JavaGuide/JAD反编译tricks.md at master · Github-Programer/JavaGuide · GitHub...
  10. 基于OpenCV 的图像分割
  11. ucore开启虚拟存储器过程详解
  12. 【Apache运维基础(4)】Apache的Rewrite攻略(1)
  13. ArcGIS10.8下载及安装教程(附安装步骤)
  14. 计算机快速结束进程,结束进程快捷键,详细教您电脑结束进程快捷键怎么操作...
  15. 西航计算机学院学生会,西航职院 | 19级计算机工程学院学生会召开纳新竞聘大会...
  16. DAE模型——阅读和理解COLLADA文档(1)
  17. babel 插件编写
  18. yii2框架-理解yii2的架构(一)
  19. 中国式“被公司加班”的办公室文化有多可怕
  20. 智卡调度APP的隐私声明

热门文章

  1. vsc中html怎么运行
  2. Python之面相对象 - 函数VS方法 反射
  3. python入门基础——综合实践(学生信息管理系统的构建)
  4. 基于顺序存储结构的图书信息表的创建和输出
  5. 做公众号依然可以赚到钱
  6. 人工智能交互革命:探索ChatGPT的无限可能 第15章 结论与展望
  7. oracle基础|oracle的认知|Select用法详解
  8. archery使用手册
  9. PQ和HLG标准及其转换
  10. java-net-php-python-jspm零担快跑物流管理系统计算机毕业设计程序