大家好,我是辣条。

今天主要分享一个粉丝朋友找我帮他爬一个妹子图网站,不过网站图片尺度比较大,所以也不留链接了,虽然比较简单,但还是很有学习意义的,我这绝不是水文章!学习的事当然要分享给大家。

效果展示

采集数据目标

网站:不提供(狗头保命,防止进小黑屋)

工具使用

开发工具:pycharm

开发环境:python3.7, Windows10

使用工具包:requests,lxml

重点学习内容

  • requests工具使用

  • xpath提取网页数据

项目解析思路

获取到首页信息,通过requests请求网页数据,当前网页数据为动态加载数据。

url参数修改请求其他页面,通过xpath方式提取到进入详情页面的网址,详情页面的信息会更加的精彩。

提取到进入详情页面的a标签,再次请求网页数据,得到详情页面数据,再次通过xpath方式获取到图片的标签以及图片的名字,要注意的是img标签里的图片地址其实是动态图,我们需要获取的数据是div标签里的data-src。

获取到对应图片标签,保存对应图片数据 大功告成!!!

需要网站地址关注三连+私❤我获取【仅供学习交流,一定要三连收藏哦,不然容易找不着】

简易源码分享

import requests
from lxml import etree
​
​
​
url = 'https://www.xxxx.com/page/4/'
response = requests.get(url)
html = etree.HTML(response.text)
href_list = html.xpath('//div[@class="item-title"]/a/@href')
for href in href_list:res = requests.get(href)html_data = etree.HTML(res.text)img_url_list = html_data.xpath('//div[@data-fancybox="gallery"]/@data-src')img_name_list = html_data.xpath('//img/@alt')print(img_url_list)for img_url, img_name in zip(img_url_list, img_name_list):result = requests.get(img_url).contentwith open('图片/' + img_name + ".jpg", "wb")as f:f.write(result)print("正在下载:", img_name)
​

仅供学习交流!!侵删!

Python爬虫都被你用来爬妹子图了,我等羞愧与之为伍!相关推荐

  1. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  2. 要学会Python爬虫都需要什么基础呢?

    提到Python自然就会想到爬虫,很多同学学习Python的目的也是为了使用爬虫,那么你知道想要学会Python爬虫都需要什么基础吗?下面小千就来告诉你. 学Python爬虫需要掌握的基础 1.Pyt ...

  3. Python爬虫《自动化学报》数据爬取与数据分析

    Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...

  4. 基于python爬虫————静态页面和动态页面爬取

    基于python爬虫----静态页面和动态页面爬取 文章目录 基于python爬虫----静态页面和动态页面爬取 1. 爬虫的原理 2. 用正则表达式匹配获取数据 3. 页面源码解析 4. 通过req ...

  5. Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影

    文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...

  6. Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行

    Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

  7. Python 异步,协程,学起来好头疼,Python爬虫程序能调用GPU去爬东西吗?

    78 技术人社群日报时间 文章目录 Python 爬虫程序能调用 GPU 去爬东西吗? Python 异步,协程--,学起来好头疼 有没有牛子大的说下 `matplotlib` 里 `plot` 和 ...

  8. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  9. python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...

    Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...

最新文章

  1. Redis源码和java jdk源码中hashcode的不同实现
  2. windows快捷键,photoshop快捷键,qq快捷键
  3. springBoot中启用事务管理
  4. 小眼睛有多惨?美颜都懒得救你......
  5. s905各种型号的区别_梯式桥架和槽式桥架的区别介绍
  6. Java Process getOutputStream()方法与示例
  7. 回顾 2017, Java 有哪些值得关注的重大变化?
  8. Linux分区和加密分区操作
  9. 实验3-4 统计字符 (15 分)
  10. JavaScript的组成
  11. 用C#打造quot;QQ对战平台挤房器quot;
  12. linux 64 iso镜像文件下载地址,Linux(RHEL) ISO镜像文件-下载地址
  13. 【银行】银行业务系统设计特点概述
  14. 抖音开屏广告和信息流广告相比较哪一种效果更好?
  15. 《书生云超融合一体机》T-CAM评审会召开
  16. 暗月渗透实战靶场-项目七(上)
  17. Unity自定义创建文件夹
  18. ANO匿名飞控STM32代码解读(二)数据传输——Ano_DT.c
  19. 系统服务器如何修复,服务器操作系统修复
  20. Win11或Win10重置电脑提示“找不到恢复环境”

热门文章

  1. 重识JavaScript 之 数据类型的相互转换
  2. 风云再起-后IOE时代的Oracle架构变迁与创新-V3
  3. 1月Web服务器份额之争:仅Microsoft份额下降
  4. PHP在微博优化中的“大显身手”
  5. Go 统计含 emoji 字符串字符数
  6. C++ 为什么要引入异常处理机制
  7. OpenMP对于嵌套循环应该添加多少个parallel for
  8. Android学习——Fragment动态加载
  9. bzoj 3670: [Noi2014]动物园
  10. IE10 URL中多出一串字符,图片无法显示