Python爬虫都被你用来爬妹子图了,我等羞愧与之为伍!
大家好,我是辣条。
今天主要分享一个粉丝朋友找我帮他爬一个妹子图网站,不过网站图片尺度比较大,所以也不留链接了,虽然比较简单,但还是很有学习意义的,我这绝不是水文章!学习的事当然要分享给大家。
效果展示
采集数据目标
网站:不提供(狗头保命,防止进小黑屋)
工具使用
开发工具:pycharm
开发环境:python3.7, Windows10
使用工具包:requests,lxml
重点学习内容
requests工具使用
xpath提取网页数据
项目解析思路
获取到首页信息,通过requests请求网页数据,当前网页数据为动态加载数据。
url参数修改请求其他页面,通过xpath方式提取到进入详情页面的网址,详情页面的信息会更加的精彩。
提取到进入详情页面的a标签,再次请求网页数据,得到详情页面数据,再次通过xpath方式获取到图片的标签以及图片的名字,要注意的是img标签里的图片地址其实是动态图,我们需要获取的数据是div标签里的data-src。
获取到对应图片标签,保存对应图片数据 大功告成!!!
需要网站地址关注三连+私❤我获取【仅供学习交流,一定要三连收藏哦,不然容易找不着】
简易源码分享
import requests
from lxml import etree
url = 'https://www.xxxx.com/page/4/'
response = requests.get(url)
html = etree.HTML(response.text)
href_list = html.xpath('//div[@class="item-title"]/a/@href')
for href in href_list:res = requests.get(href)html_data = etree.HTML(res.text)img_url_list = html_data.xpath('//div[@data-fancybox="gallery"]/@data-src')img_name_list = html_data.xpath('//img/@alt')print(img_url_list)for img_url, img_name in zip(img_url_list, img_name_list):result = requests.get(img_url).contentwith open('图片/' + img_name + ".jpg", "wb")as f:f.write(result)print("正在下载:", img_name)
仅供学习交流!!侵删!
Python爬虫都被你用来爬妹子图了,我等羞愧与之为伍!相关推荐
- python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...
原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...
- 要学会Python爬虫都需要什么基础呢?
提到Python自然就会想到爬虫,很多同学学习Python的目的也是为了使用爬虫,那么你知道想要学会Python爬虫都需要什么基础吗?下面小千就来告诉你. 学Python爬虫需要掌握的基础 1.Pyt ...
- Python爬虫《自动化学报》数据爬取与数据分析
Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...
- 基于python爬虫————静态页面和动态页面爬取
基于python爬虫----静态页面和动态页面爬取 文章目录 基于python爬虫----静态页面和动态页面爬取 1. 爬虫的原理 2. 用正则表达式匹配获取数据 3. 页面源码解析 4. 通过req ...
- Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影
文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...
- Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行
Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...
- Python 异步,协程,学起来好头疼,Python爬虫程序能调用GPU去爬东西吗?
78 技术人社群日报时间 文章目录 Python 爬虫程序能调用 GPU 去爬东西吗? Python 异步,协程--,学起来好头疼 有没有牛子大的说下 `matplotlib` 里 `plot` 和 ...
- Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价
Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...
- python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...
Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...
最新文章
- Redis源码和java jdk源码中hashcode的不同实现
- windows快捷键,photoshop快捷键,qq快捷键
- springBoot中启用事务管理
- 小眼睛有多惨?美颜都懒得救你......
- s905各种型号的区别_梯式桥架和槽式桥架的区别介绍
- Java Process getOutputStream()方法与示例
- 回顾 2017, Java 有哪些值得关注的重大变化?
- Linux分区和加密分区操作
- 实验3-4 统计字符 (15 分)
- JavaScript的组成
- 用C#打造quot;QQ对战平台挤房器quot;
- linux 64 iso镜像文件下载地址,Linux(RHEL) ISO镜像文件-下载地址
- 【银行】银行业务系统设计特点概述
- 抖音开屏广告和信息流广告相比较哪一种效果更好?
- 《书生云超融合一体机》T-CAM评审会召开
- 暗月渗透实战靶场-项目七(上)
- Unity自定义创建文件夹
- ANO匿名飞控STM32代码解读(二)数据传输——Ano_DT.c
- 系统服务器如何修复,服务器操作系统修复
- Win11或Win10重置电脑提示“找不到恢复环境”