文章目录

  • 一、页面分析
  • 二、完整代码
  • 三、结果展示
  • 四、Blogger’s speech

一、页面分析

今天就说一些开场白了,直接进入主题。

首先,打开目标网址:网址传送门
(未成年人禁止入内嗷(手动滑稽))

结构和贴吧差不多呀,肯定要分两步。
第一步:通过主详情页,拿到各个子详情页的链接。

右击 页面进行检查,发现了每个子页面对应的article节点,点开一个article节点进行观察,很容易发现,里面有一个跳转链接。


目标一,get!

第二步,拿到每个图片的下载链接。
右击检查,也很容易发现,它们的下载链接,但同时也发现了,“干扰项”

在获取链接的时候,首先要找到p节点,但是,p节点存在同名的干扰项,这时候就需要使用一些手法进行处理了。具体看代码。

二、完整代码

# -*- coding: UTF-8 -*-
"""
@Author  :远方的星
@Time   : 2021/3/20 7:44
@CSDN    :https://blog.csdn.net/qq_44921056
@腾讯云   : https://cloud.tencent.com/developer/column/91164
"""
from fake_useragent import UserAgent
import requests
from lxml import etree
import bs4
import os
# 创建一个文件夹来报预保存图片
if not os.path.exists('D:/Animex动漫社'):os.mkdir('D:/Animex动漫社')
# 创建随机请求头
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')
# 用户输入爬取的页数
page = input('请输入想要爬取的页数')
page = int(page) + 1
# 使用for循环进行多页爬取
for i in range(1, page):url = 'http://www.animetox.com/category/pic/pixiv/page/{}'.format(i)# 获取页面内容response_1 = requests.get(url).texthtml = etree.HTML(response_1)image_urls = html.xpath('//*[@id="main-contents"]/section[2]/div/div/article')  # 找到各个article节点for j in range(len(image_urls)):# 提取每一组的图片的访问链接image_url = image_urls[j].xpath('./a/@href')[0]# 获取页面内容response_2 = requests.get(image_url).texthtml = response_2soup = bs4.BeautifulSoup(html, 'html.parser')# 获取指定的节点,排除掉p节点的干扰项image_src_s = soup.select('.cps-post-main-box div p[style="text-align: center;"]')# 定义num方便图片命名num = 1for k in range(len(image_src_s)):# 获取指定节点下的节点image_src = image_src_s[k].select('img')# 即使排除了干扰项,但可能存在满足条件,但内容为空的情况,于是使用条件循环进行筛选if image_src == []:continueelse:image_src = image_src[0]# 获取图片链接image_src = image_src.get('data-lazy-src')# 得到图片内容image_data = requests.get(image_src).content# 图片名字image_name = '{}_{}_{}.jpg'.format(i, j+1, num)# 图片保存小路径名字path_name = '{}_{}'.format(i, j+1)# 大路径名字path = 'D:/Animex动漫社/' + path_nameif not os.path.exists(path):os.mkdir(path)# 图片的保存路径image_path = path + '/' + image_namenum += 1# 保存文件with open(image_path, 'wb') as f:f.write(image_data)print(image_name, '下载成功!')f.close()

三、结果展示




图片名字含义:num1_num2_num3分别代表,主页面第几页_页面中第几个子页面_子页面中第几张图片。

四、Blogger’s speech

学废了咩,还不赶紧尝试尝试!

如有不足,还请大佬评论区留言或私信我,我会进行补充。

感谢您的支持,希望可以点赞,关注,收藏,一键三连哟。

作者:远方的星
CSDN:https://blog.csdn.net/qq_44921056
腾讯云:https://cloud.tencent.com/developer/column/91164
本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。

python爬虫带你玩转日系P站相关推荐

  1. 手把手教你用python爬虫带你玩转日系P站,超详细教学

    一.页面分析 今天就说一些开场白了,直接进入主题. 首先,打开目标网址:P站 (未成年人禁止入内嗷(手动滑稽)) 结构和贴吧差不多呀,肯定要分两步. 第一步:通过主详情页,拿到各个子详情页的链接. 右 ...

  2. url没有参数名怎么直接带参数_用30行Python爬虫带你看PLMM(划掉,喵星人)

    偶尔写写爬虫也算是打磨无聊生活的一种方式了. 之前写了一个用100多行Python爬虫看世界的帖子,有兴趣的朋友可以看一下. 带你用100多行Python爬虫看看今天的世界(上) 带你用100多行Py ...

  3. Python爬虫带你爬取美剧网站

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:哲洛不闹 一直有爱看美剧的习惯,一方面锻炼一下英语听力 ...

  4. 广州地震了!地震到底离我们有多近,Python 爬虫带你了解

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 接天莲叶无穷碧,映日荷花别样红. ...

  5. python爬虫——带你爬取古诗名句,考试什么的不就是轻轻松松

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:py3study ( 想要学习Python?Pytho ...

  6. Python爬虫-带你爬取高清美女图片

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:明天依旧可好 ( 想要学习Python?Python学 ...

  7. 可爱女生图片到期了,怎么办?当前是把Python爬虫升级到【可爱头像】站

    最近收到 C 友反馈,说 <对 Python 爬虫编写者充满诱惑的网站,<可爱图片>> 这篇博客的目标图片站,已经不能使用了,橡皮擦查阅之后,发现是对方的图片源出了问题,可跟咱 ...

  8. Python爬虫以及数据可视化分析之某站热搜排行榜信息爬取分析

    目录 前言 一,确定目标 二,发送请求 三, 解析数据 四, 保存数据 pyecharts进行可视化 "某站"数据排名前10视频类型 "某站"标题标签可视化 & ...

  9. 广州地震?用 Python 爬虫带你了解地震 !

    这周看到了两个地震新闻,一个是广东广州增城的,另一个是台湾的,因为本人身在广州,而且对于广佛这边的来说地震其实挺突然的对于我们来说,基本在广佛这边很少出现地震,所以我看到广州增城地震也挺吃惊,然后就萌 ...

最新文章

  1. Hadoop学习13--zookeeper相关
  2. 计算机软件侵权责任,对计算机软件侵权行为认定标准
  3. vue - cli 脚手架安装
  4. 【Android基础】页面跳转与传值(Activity跳转与传值)
  5. paypal在线支付演示下载PHP版
  6. Java如何实现原子操作
  7. 【雷达测角】基于matlab和差波束加权【含Matlab源码 1674期】
  8. 进销存excel_干货分享,上班族必看。EXCEL轻松搞定制作进销存报表
  9. ora01031权限不足linux,ORA-01031:权限不足
  10. linux 添加udp端口映射,iptables下udp端口转发
  11. codeforces1608C. Game Master题解(图论)
  12. 女孩起名字:100个优秀的女孩名字大全
  13. 月份 星期 英文描述
  14. python向excel写数据_Python向excel中写入数据的方法 方法简单
  15. 基于MATLAB的拼图游戏设计(图文详解,附完整代码)
  16. 图片加载 二维码 解析
  17. 关于XML解析的常用方式
  18. 淘宝/天猫平台商品详情API接口调用说明
  19. SQL Server 数据分区管理
  20. HTML5期末大作业:旅游网页设计——西安旅游9页(代码质量好) 学生DW网页设计作业源码 web课程设计网页规划与设计

热门文章

  1. poj2778 DNA Sequence (ACAM+dp+矩阵倍增)
  2. 短信平台开发之短信猫资料简介
  3. Github上竟然有这么多可以帮你赚钱的项目
  4. elxel表格纸张尺寸_excel表格设置打印A4大小的方法步骤
  5. 服务器信号不好怎么弄,手机信号不好怎么办?教你几招,再也不用满世界找信号了...
  6. centos7服务器修改密码,centos7 修改root密码方式
  7. 建群网培PMP每日一练2020-7-14
  8. ssh免密钥登录(两种方法) 免秘钥
  9. 用matlab移动平均法,移动平均法的matlab程序怎么写
  10. jenkins 邮件中添加附件踩坑史