为了防止这个宅男最爱网站消失,我连夜用Python离线了上万张图片
吐槽一下
之前好多高质量网站都不见了,肯定是你们整活整多了,趁你们不注意,我先悄悄多保存点~
事前准备
让我们开始今天的操作
有什么python相关报错解答自己不会的、或者源码资料/模块安装/女装大佬精通技巧 都可以来这里:(https://jq.qq.com/?_wv=1027&k=2Q3YTfym)或者文末私号问我
(不知道发出来是不是违规了…)
1、环境配置
安装一个Python和pycharm就好了,没有的话,我放在文末。
2、模块使用
requests # 数据请求
parsel # 解析模块 (提取数据)
python学习交流群:660193417###
这两个模块没有安装的话,
先安装一下,
win+R 输入cmd 按回车弹出命令提示符窗口,
输入 pip install 加上模块名即可 ,
如:pip install requests 然后按回车即可安装成功,
(不会就问管理员小姐姐,她很强的)
3、如何配置pycharm里面的python解释器?
- 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
- 点击齿轮, 选择add
- 添加python安装路径
4、pycharm如何安装插件?
- 选择file(文件) >>> setting(设置) >>> Plugins(插件)
- 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
- 选择相应的插件点击 install(安装) 即可;
- 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效;
5、基本流程
基本上所有的爬虫都是这个步骤
一. 数据来源分析
- 抓取网站是什么?
- 想要获取网站什么样数据内容?
比如爬取图片,从一张图片去分析,
通过开发者工具进行抓包分析,
对比我们想要图片url地址一些参数;
二. 代码实现步骤:
- 发送请求, 对于分析得到url地址发送请求;
请求网址
请求方式
请求头参数 >>> 伪装 可以把python代码伪装成浏览器(客户端)发送请求;
如果不进行伪装会有什么后果 >>> 不会给你返回你想要数据; - 获取数据,获取response服务器返回响应数据;
- 解析数据,提取我们想要数据内容,图片url地址以及图片标题;
- 保存数据,把图片数据保存到本地;
代码解析
开始展示代码吧,不然大家想打我了~
有什么python相关报错解答自己不会的、或者源码资料/模块安装/女装大佬精通技巧 都可以来这里:(https://jq.qq.com/?_wv=1027&k=2Q3YTfym)或者文末私号问我
1、模块导入
首先把我们需要用的模块导入进去,导入数据请求模块和数据解析模块,导入模块没有使用, 灰色待机状态。
import requests
import parsel
2、发送请求
headers 请求头参数, 可以开发者工具里面直接进行复制, 其次headers字典数据类型, 键值对;
user-agent: 用户代理 表示浏览器基本身份标识;
cookie: 用户信息, 检测用户是否有登陆账号;
for page in range(2, 11):url = f'因为地址敏感我放在评论区置顶了/woman/{page}.html'headers = {'cookie': 't=f2cf055ce8713058cbfdbd1561c38e86; r=1281; Hm_lvt_86200d30c9967d7eda64933a74748bac=1645625923,1646892448; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1646894465','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}response = requests.get(url=url, headers=headers) # <Response [200]> 返回响应对象 200状态码标识请求成功
3、获取数据
获取服务器返回数据内容, 获取响应对象文本数据/字符串数据。
返回数据内容和我们在开发者工具里面看到不一样,
说明你被服务器识别出来是你爬虫程序,所以他没有给你返回数据。
4、解析数据
css选择器 xpath re 三种解析方式都可以去用选择最适合;
css选择器: 根据标签属性提取数据内容;
对于获取response.text 进行数据类型转换 转成 selector 对象
attr() 属性选择器 .egeli_pic_li .egeli_pic_dl dd a img 都是定位标签, 告诉它是哪一个标签
img::attr(src) 取img标签里面的src属性数据
getall() 获取所有标签内容数据 返回列表数据类型
selector = parsel.Selector(response.text)src = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(src)').getall()alt = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(alt)').getall()for img_url, title in zip(src, alt):img_url = img_url.replace('edpic_360_360', 'edpic_source')
5、保存数据
img_content = requests.get(url=img_url, headers=headers).content # 获取二进制数据内容
with open('img\\' + title + '.jpg', mode='wb') as f:f.write(img_content)
print(img_url, title)
python学习交流群:660193417###
好了,代码就到这里结束了,采集结果我也不知不觉给大家展示在文中了,大家细细品味~
兄弟们,敲代码要勤快,永远不要用战术上的勤奋,来掩饰战略上的懒惰。
记得点赞收藏~
我是小熊猫,咱下篇文章见啦(✿◡‿◡)
为了防止这个宅男最爱网站消失,我连夜用Python离线了上万张图片相关推荐
- 【AI绘画打卡】| 用漫画生成器绘制宅男最爱的二次元美女
二次元美女在日本文化中已经成为一种流行文化和艺术形式,包括漫画.动画等.由于此类作品的富有想象力.多样性和虚构,像二次元美女这样的虚拟角色往往可以充分满足人们的幻想和情感需求.这也是许多宅男在二次元世 ...
- 昔日“宅男最爱”、视频播放器之王破产清算:4.5万元商标拍到950万元
4月14日,作为破产清算的一部分,快播公司名下234项商标第一次拍卖有了结果.起拍价4.5万元,经过402次竞买,最终以950万元成交. 本批商标包括快播QVOD.快播Q.快播云KUAIBO等有188 ...
- c语言中鱼贯指针的编程题,泡面吧 IT宅男如何打造编程教学网站
导语:目前泡面吧开放的课程包括编程初学入门常识.C语言入门.C语言进阶.C++入门等7门.在美国,趣味编程网站Codecademy如今异常火爆 互联网这块神奇的热土从来不缺少励志故事. 2014年4月 ...
- 荐几个宅男宅女常去的网站 你不得不知道的
.宅男宅女们每天呆在电脑前,除了聊聊QQ,上上开心,逛逛淘宝,还做些什么呢?以下15个网站,都是宅男宅女经常去的地方,你也可以去看看. 1. 去那儿 http://www.qunar.com 想去旅游 ...
- [转]“高科技无产阶级”:卢瑟、宅男与屌丝
卢瑟.宅男.屌丝,以及跟它们相关的若干名词在中国互联网上很流行,都被用来称呼某个群体,而且,还常常是这些群体的成员跳出来自称.这些身份标签,或者说身份认同,折射出近十年内中国社会的某些人群的生存状态. ...
- 宅男抖音某猫协议分析及应用破解
" 分析传说中的快x,顺便提供破VIP线路及去启动广告方法." 在当今这个由应用市场主导的网络上,流传着一批应用,它们低调又神秘,依赖口碑与独立网站在地下渠道传播,应用市场中从来都 ...
- 头像秒变像素风,宅男大叔自学AI打造大师级水准,火爆推特
↑ 点击蓝字 关注极市平台 来源丨量子位 极市导读 最近,一位日本宅男大叔佐藤做了一个AI生成肖像画的网站AI Gahaku,10天内用户访问量从0暴增到100万,引爆推特.>>就在明天, ...
- 宅男程序员给老婆的计算机课程
声明: Technorati 标记: IT生活 本文档来自:http://developer.51cto.com/art/201203/321936.htm 宅男程序员给老婆的计算机课程之0:认清本质 ...
- ed是什么梗_花泽香菜不笑了什么梗怎么回事?花泽香菜为什么是宅男女神?
花泽香菜,是日本的声优,她不仅长相萌,声音才是真的萌.因为参与配音了很多日漫,在加上是童星出身,在日本拥有很高的人气(花泽香菜为什么那么火),被称为"宅男女神".据悉,花泽香菜平时 ...
最新文章
- Python入门编程中的变量、字符串以及数据类型
- ASP.NET发送电子邮件
- 1058 选择题 (20 分)
- 前端学习(1576):项目骨架
- 记一次生成唯一ID的问题
- RabbitMQ集群故障恢复详解
- 使用SQLite3支持中文路径
- 多幸运用计算机演奏的乐谱,多幸运简谱-韩安旭演唱-孙世彦制谱
- 【论文笔记】Details or Artifacts: A Locally Discriminative Learning Approach toRealistic Image Super-Reso
- 数据分析基础篇16讲之02学习数据挖掘的最佳路径是什么?
- win8dns服务器没响应,win8笔记本dns服务器未响应怎么办
- 软件测试:测试管理篇
- 数据可视化--物流大数据服务平台
- 最大流与最小割(Maxflow与Mincut)
- 【大数据 / linux 系统 / KEN】linux 基本命令的使用(3)
- 内存颗粒和闪存颗粒的区别_闪存颗粒到底是何物?浅析闪存及制程
- RabbitMQ(消息队列)浅记
- 代数,几何及微积分之间的关系
- Verilog 语言 ——计数器
- php 分页怎么实现的_php如何实现分页