总所周知, p站是一个聚集了众多各国优秀艺术家相互交流的网站,Python采集p站数据
前言
总所周知, p站是日本知名的虚拟社区, 聚集了众多来自日本, 中国, 韩国, 美国等国家的优秀艺术家。他们在p站上相互交流, 分享高清优秀插画, 是一个正经的网站
环境介绍
- python 3.8 – anaconda 安装了一些模块 / 自动的 配置环境变量
- pycharm 2021专业版 >>> 激活码
- requests >>> pip install requests
- parsel >>> pip install parsel
主页左侧可以免费领取【代码】【相关教程、资料】,或者对于本篇文章有疑问的同学可以私信我
开始代码
首先需要导入模块
import requests # 发送网络请求的模块
import parsel # 提取数据
import re
发送请求
url_1 = 'https://www.acg-pixiv.com/tags/450.html'
response_1 = requests.get(url_1)
获取数据
data_html_1 = response_1.text
提取数据
selector = parsel.Selector(data_html_1)
# 提取链接 属性内容 @属性名称 css xpath re
href_list = selector.xpath('/html/body/div/div[1]/ul/li/a/@href').getall()
title_list = selector.xpath('/html/body/div/div[1]/ul/li/a/@title').getall()
详情页链接
for info in zip(href_list, title_list):# 索引取值 元组url_2 = 'https://www.acg-pixiv.com' + info[1]
每一个详情页的网页源代码
# content? 获取二进制数据
response_2 = requests.get(url_2).text
提取详情页中的图片链接
selector_2 = parsel.Selector(response_2)
# 图片链接
url = selector_2.xpath('/html/body/div/div[1]/div[1]/div/img[1]/@src').get()
print(url)
图片链接
# 当这个程序报错的时候
try:img_data = requests.get(img_url, timeout=5).content
except:# 图片链接改一下img_url = img_url.replace('800', '400')img_data = requests.get(img_url).content
替换特殊字符
title = re.sub(r'[\\/:*?"<>|]', '_', info[1])
保存数据
print(f'---------正在爬取{title}---------')
with open(f'img/{title}.jpg', mode='wb') as f:f.write(img_data)
总所周知, p站是一个聚集了众多各国优秀艺术家相互交流的网站,Python采集p站数据相关推荐
- Python采集烤肉店数据,又是一个外包项目,努力挣钱,实现吃肉自由
前言 哈喽啊,铁子们,现在好饿好想吃肉啊,实在有点受不了了,刚刚就看了某软件上的烤肉店,越看越饿,但是又不知道吃哪家好,索性就用Python采集一下这些烤肉店的数据吧 准备环境 python 3.6 ...
- 采集英语站-免费采集外贸英语站的软件
采集英语站,怎么采集英语站?有什么好用的英语站采集软件吗?小白也能用的,不仅可以采集英语站同时还是支持批量翻译英语站.详细如下图 一.迎合蜘蛛做好网站页面优化 很多SEO从业者在网站优化的过程中都渴望 ...
- 【望周知,求扩散】淘宝 NPM 镜像站更换换新域名啦
大厂技术 高级前端 Node进阶 点击上方 程序员成长指北,关注公众号 回复1,加入高级Node交流群 请求扩散.请求扩散.请求扩散分享此文章给开发或者运维人员. 源起 淘宝 NPM 镜像站(ht ...
- 已知每个部门有一个经理,统计输出部门名称、部门总人数、 总工资和部门经理。
--已知每个部门有一个经理,统计输出部门名称.部门总人数. --总工资和部门经理. --1.一个游标select deptno,count(*),sum(sal) from emp group by ...
- 微信又确定全新封号标准!触犯这几条底线将被永久封号,望周知
微信是我们日常生活中,不可避免都要使用到的工具.生活助手.高频率.长时间的使用,有可能一不小心就被封号了,该怎么办? 下面就来介绍下,微信确定的全新的封号标准,触犯这几条底线将被用久封号,望周知. 一 ...
- 骑砍服务器文件夹,《骑马与砍杀2:霸主》东亚决斗服已开启,决斗礼仪请周知...
小编注: 2020年5月9日晚,Taleworlds为东亚地区玩家开放了决斗模式的服务器.联机的老玩家应该对于这个模式很熟悉而且充满期待了,从骑砍2开始的新骑友可能还不太熟悉决斗服的规则,因此Tale ...
- 再次携号转网_携号转网能“转”几次,间隔时间是多长,具体有哪些条件?望周知...
携号转网能"转"几次,间隔时间是多长,具体有哪些条件?望周知 前几天,我谈及5G普及的"时间表",提到了携号转网的问题,就有一位网友提问:携号转网到底怎么转,具 ...
- 鸿蒙系统 新闻,鸿蒙系统升级名单曝光,为什么你还没有收到推送?3个原因望周知...
操作系统是电子设备的灵魂,也是我国科技企业的"软肋".不管是PC时代的Windows系统还是智能手机时代的安卓系统,都是美国企业把持的. <科技日报>评选制约我国工业发 ...
- 【计算机网络】周知端口号列表
端口号 端口号是计算机网路中的一个重要概念,它是一个16bits的数,大小在0~65535之间. 0~1023范围内的端口号称为周知端口号,是受限制的,这是指他们保留给诸如HTTP(80).FTP(2 ...
最新文章
- 使用TypeScript映射和条件类型使React组件更出色
- 一款简单易用的链式droplist
- Xamarin基础命名空间Microsoft.SqlServer.Server
- 棱镜刘大澎:云时代的手游SDK接入
- 递归算法及其时间复杂度分析
- 概率论 方差公式_概率论与数理统计课程教学、学习基本要求和教学建议
- JDK动态代理的实现原理
- cadence菜鸟之旅
- 【PR 2021】Adobe Premiere 2021 软件下载及安装教程
- 利用python绘制科赫雪花
- 70K的QQ——MiniQQ
- JAVA微服务架构视频教程
- 远程服务器 检索{00024500-0000-0000-C000-000000000046}组件失败 80080005 服务器运行失败 解决方案
- 计算机启动后出现黑屏鼠标,电脑开机黑屏只有鼠标,小编教你电脑开机黑屏鼠标能动怎么办...
- 画了张图,总结了机房里AAU、RRU以及各模块之间的走线关系和线束规格类型
- 软件测试行业还能干多久?35岁真的会直接淘汰吗?
- 计算机毕业设计之 医院管理系统
- 格林纳达常驻WTO大使孙宇晨会见法国驻联合国日内瓦办事处代表
- linux肉鸡检测,一台linux肉鸡的简单手工入侵检测过程
- 基于Linux的powerlink实现
热门文章
- Java基础案例2-6:登录注册小程序
- (12)WLAN体系结构及各层的主要功能
- JPA criteria 查询:类型安全与面向对象
- 金蝶系统服务器上怎样备份文件,金蝶服务器数据库备份
- 政策解读 | 传言PayPal要封杀独立站卖家?绝对不可能!
- Simon IELTS: Reading
- 微信小程序时区时间转换
- Linux系统重装出现c0409a9f,自学IT吧论坛Linux系统运营系列视频教程#28期2016系统/服务器资源天地 - www.zxit8.com...
- 精图规范1.0----16 交互性 Interactivity
- Gitlab Runner