前言

总所周知, p站是日本知名的虚拟社区, 聚集了众多来自日本, 中国, 韩国, 美国等国家的优秀艺术家。他们在p站上相互交流, 分享高清优秀插画, 是一个正经的网站

环境介绍

  • python 3.8 – anaconda 安装了一些模块 / 自动的 配置环境变量
  • pycharm 2021专业版 >>> 激活码
  • requests >>> pip install requests
  • parsel >>> pip install parsel

主页左侧可以免费领取【代码】【相关教程、资料】,或者对于本篇文章有疑问的同学可以私信我

开始代码

首先需要导入模块

import requests     # 发送网络请求的模块
import parsel       # 提取数据
import re

发送请求

url_1 = 'https://www.acg-pixiv.com/tags/450.html'
response_1 = requests.get(url_1)

获取数据

data_html_1 = response_1.text

提取数据

selector = parsel.Selector(data_html_1)
# 提取链接 属性内容 @属性名称 css xpath re
href_list = selector.xpath('/html/body/div/div[1]/ul/li/a/@href').getall()
title_list = selector.xpath('/html/body/div/div[1]/ul/li/a/@title').getall()

详情页链接

for info in zip(href_list, title_list):# 索引取值 元组url_2 = 'https://www.acg-pixiv.com' + info[1]

每一个详情页的网页源代码

# content? 获取二进制数据
response_2 = requests.get(url_2).text

提取详情页中的图片链接

selector_2 = parsel.Selector(response_2)
# 图片链接
url = selector_2.xpath('/html/body/div/div[1]/div[1]/div/img[1]/@src').get()
print(url)

图片链接

# 当这个程序报错的时候
try:img_data = requests.get(img_url, timeout=5).content
except:# 图片链接改一下img_url = img_url.replace('800', '400')img_data = requests.get(img_url).content

替换特殊字符

title = re.sub(r'[\\/:*?"<>|]', '_', info[1])

保存数据

print(f'---------正在爬取{title}---------')
with open(f'img/{title}.jpg', mode='wb') as f:f.write(img_data)

总所周知, p站是一个聚集了众多各国优秀艺术家相互交流的网站,Python采集p站数据相关推荐

  1. Python采集烤肉店数据,又是一个外包项目,努力挣钱,实现吃肉自由

    前言 哈喽啊,铁子们,现在好饿好想吃肉啊,实在有点受不了了,刚刚就看了某软件上的烤肉店,越看越饿,但是又不知道吃哪家好,索性就用Python采集一下这些烤肉店的数据吧 准备环境 python 3.6 ...

  2. 采集英语站-免费采集外贸英语站的软件

    采集英语站,怎么采集英语站?有什么好用的英语站采集软件吗?小白也能用的,不仅可以采集英语站同时还是支持批量翻译英语站.详细如下图 一.迎合蜘蛛做好网站页面优化 很多SEO从业者在网站优化的过程中都渴望 ...

  3. 【望周知,求扩散】淘宝 NPM 镜像站更换换新域名啦

    大厂技术  高级前端  Node进阶 点击上方 程序员成长指北,关注公众号 回复1,加入高级Node交流群 请求扩散.请求扩散.请求扩散分享此文章给开发或者运维人员. 源起 淘宝 NPM 镜像站(ht ...

  4. 已知每个部门有一个经理,统计输出部门名称、部门总人数、 总工资和部门经理。

    --已知每个部门有一个经理,统计输出部门名称.部门总人数. --总工资和部门经理. --1.一个游标select deptno,count(*),sum(sal) from emp group by ...

  5. 微信又确定全新封号标准!触犯这几条底线将被永久封号,望周知

    微信是我们日常生活中,不可避免都要使用到的工具.生活助手.高频率.长时间的使用,有可能一不小心就被封号了,该怎么办? 下面就来介绍下,微信确定的全新的封号标准,触犯这几条底线将被用久封号,望周知. 一 ...

  6. 骑砍服务器文件夹,《骑马与砍杀2:霸主》东亚决斗服已开启,决斗礼仪请周知...

    小编注: 2020年5月9日晚,Taleworlds为东亚地区玩家开放了决斗模式的服务器.联机的老玩家应该对于这个模式很熟悉而且充满期待了,从骑砍2开始的新骑友可能还不太熟悉决斗服的规则,因此Tale ...

  7. 再次携号转网_携号转网能“转”几次,间隔时间是多长,具体有哪些条件?望周知...

    携号转网能"转"几次,间隔时间是多长,具体有哪些条件?望周知 前几天,我谈及5G普及的"时间表",提到了携号转网的问题,就有一位网友提问:携号转网到底怎么转,具 ...

  8. 鸿蒙系统 新闻,鸿蒙系统升级名单曝光,为什么你还没有收到推送?3个原因望周知...

    操作系统是电子设备的灵魂,也是我国科技企业的"软肋".不管是PC时代的Windows系统还是智能手机时代的安卓系统,都是美国企业把持的. <科技日报>评选制约我国工业发 ...

  9. 【计算机网络】周知端口号列表

    端口号 端口号是计算机网路中的一个重要概念,它是一个16bits的数,大小在0~65535之间. 0~1023范围内的端口号称为周知端口号,是受限制的,这是指他们保留给诸如HTTP(80).FTP(2 ...

最新文章

  1. 使用TypeScript映射和条件类型使React组件更出色
  2. 一款简单易用的链式droplist
  3. Xamarin基础命名空间Microsoft.SqlServer.Server
  4. 棱镜刘大澎:云时代的手游SDK接入
  5. 递归算法及其时间复杂度分析
  6. 概率论 方差公式_概率论与数理统计课程教学、学习基本要求和教学建议
  7. JDK动态代理的实现原理
  8. cadence菜鸟之旅
  9. 【PR 2021】Adobe Premiere 2021 软件下载及安装教程
  10. 利用python绘制科赫雪花
  11. 70K的QQ——MiniQQ
  12. JAVA微服务架构视频教程
  13. 远程服务器 检索{00024500-0000-0000-C000-000000000046}组件失败 80080005 服务器运行失败 解决方案
  14. 计算机启动后出现黑屏鼠标,电脑开机黑屏只有鼠标,小编教你电脑开机黑屏鼠标能动怎么办...
  15. 画了张图,总结了机房里AAU、RRU以及各模块之间的走线关系和线束规格类型
  16. 软件测试行业还能干多久?35岁真的会直接淘汰吗?
  17. 计算机毕业设计之 医院管理系统
  18. 格林纳达常驻WTO大使孙宇晨会见法国驻联合国日内瓦办事处代表
  19. linux肉鸡检测,一台linux肉鸡的简单手工入侵检测过程
  20. 基于Linux的powerlink实现

热门文章

  1. Java基础案例2-6:登录注册小程序
  2. (12)WLAN体系结构及各层的主要功能
  3. JPA criteria 查询:类型安全与面向对象
  4. 金蝶系统服务器上怎样备份文件,金蝶服务器数据库备份
  5. 政策解读 | 传言PayPal要封杀独立站卖家?绝对不可能!
  6. Simon IELTS: Reading
  7. 微信小程序时区时间转换
  8. Linux系统重装出现c0409a9f,自学IT吧论坛Linux系统运营系列视频教程#28期2016系统/服务器资源天地 - www.zxit8.com...
  9. 精图规范1.0----16 交互性 Interactivity
  10. Gitlab Runner