点赞再看,养成习惯

文章目录

  • 分析一下
  • 步骤
  • 源码
  • 一键运行下载本地
    • 待解决
  • 难点

有这样一个网站,对它做了一下爬取,先看看效果,这样。

上图是一小部分,目测大概有 260*20*66+ ,下面就授人以渔。

分析一下

站点:https://www.gamersky.com/ent/
打开网站,有多个栏目,一一翻阅后,我们决定采集游民福利栏目。

打开后,我们现在就是一个 ul -> li -> div -> … -> a -> https://…shtml,拿到详情页。

详情页里边就是我们今天要调试的img了
下图就是了

步骤

  1. 栏目页请求解析出详情页
  2. 详情页解析出图片地址
  3. 翻页并下载到 D:
  4. 查看本地图片查漏

源码

前面我也在用java写过几个爬虫,后来看还是python更香,所以果断切换。

我这里使用的 VSCode 编辑器,很轻量级好用。版本是 python3.7 的,用了Anaconda3,它是 python 的一个集成环境,非常好用。

这几个库都是python官方自带的
import requests
import re
import os
import hashlib

不放源码就是耍流氓源码:

import requests
import re
import os
import hashlib
from urllib.request import urlretrieve
os.makedirs('D:\\photo\\', exist_ok=True)## 获取详情页html
def get_detail_html(url):try:user_agent2 = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Aoyou/W2ZjRnNwcnxUNF9jbloLVppyi3m8uIwBp69QKGQFvyaY04TkBvm7s4d8hQ=='response = requests.get(url, headers={'User-Agent': user_agent2})response.raise_for_status()response.encoding = response.apparent_encodingexcept Exception as e:print("ERROR")else:print(response.url)print("ok")return response.content# 获取全部链接
def get_img_url(html):urls = []pat = r'src="(http.+?\.jpg)"'imglist = re.findall(pat, html) for img in imglist:if(len(img) < 100):urls.append(img)return urls# 存到D盘中去
def downloadImg(imgUrls):for imgUrl in imgUrls:urlretrieve(imgUrl, 'D:\\photo\\' + get_md5(imgUrl) + '.png')print(imgUrl)def get_md5(imgUrl):return hashlib.md5(imgUrl.encode('utf-8')).hexdigest()if __name__ == '__main__':url = "https://www.gamersky.com/ent/202107/1406688.shtml"url2 = "https://www.gamersky.com/ent/202104/1379451.shtml"html = get_detail_html(url2)imgUrls = get_img_url(str(html))print(imgUrls)downloadImg(imgUrls)print("采集结束,快去D:看看")

一键运行下载本地

待解决

  1. 列表翻页
  2. 详情页翻页

这俩个问题,详情页是个url拼接,应该没啥难度

难点

列表页可能是js的,这几天处理一下

还有,不要作恶

福利来喽,技术改变生活




赶紧点赞+分享

python爬虫入门教程|爬取游民福利,大量妹子图片,源码 + 多张福利相关推荐

  1. 【爬虫 初出茅庐】 爬取并下载想要图片 源码 分析 + 分享

    先上效果图. 如搜取并下载[鬼灭之刃]和[刀剑神域]相关图片 相关过程分析: (PS:因为刚学爬虫没几天,若大佬发现有什么问题欢迎指正) 这里爬取的网站是免费提供图片的51贴图.若光爬取单一或者连续网 ...

  2. python爬虫入门教程-Python爬虫入门教程——爬取自己的博客园博客

    互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...

  3. python爬虫教程-Python爬虫入门教程——爬取自己的博客园博客

    互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...

  4. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  5. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  6. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  7. python爬虫入门(一)爬取钓鱼吧

    python爬虫入门(一)爬取钓鱼吧 # Date : 2022/1/1 17:11 ''' 需求:1.输入贴吧名称:钓鱼吧https://tieba.baidu.com/f?kw=钓鱼吧&p ...

  8. python 爬虫入门--文字爬取

    python 爬虫入门–文字爬取 对于爬虫,相信大家都不陌生,但是如何入门,大家还是停留在了解认知阶段吗?那可以试试下边的方法,一起来试一下. 首先我们试试爬取网页中的***文本信息*** 使用的是我 ...

  9. Python 爬虫入门(二)——爬取妹子图

    Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...

  10. 【Python爬虫实战】爬取彼岸图库高清图片

    利用Python爬取彼岸图库高清图片 让你每天一张壁纸不重样,今天利用Python爬取 彼岸图库 http://pic.netbian.com/ 分析网页 通过首页可以看到要获取全站图片必须先抓取各个 ...

最新文章

  1. mysql5.7主从搭建
  2. python numpy.array 与list类似,不同点:前者区分元素不用逗号,中间用空格,矩阵用[]代表行向量,两个行向量中间仍无逗号;  而list区分元素用逗号
  3. 一致性算法(paxos,raft,ZAB)——paxos算法(大概)
  4. 【docker】第四节:通过docker容器,进行部署fastadmin。
  5. 云服务器支持javascript,云服务器支持javascript
  6. 一种基于折射反向学习机制与自适应控制因子的改进樽海鞘群算法
  7. Windows XP 下如何用 Modem 发传真
  8. NFT数字藏品交易平台免费版源码-视觉猿CMS
  9. 高等数学中常见的导数公式
  10. 四位共阳极数码管显示函数_DS1302,四位共阳极数码管显示时钟,可调时间
  11. POI 读写EXCEL日期类型单元格
  12. Usdt到底靠谱吗?——记美国与大B网的恩怨情仇
  13. MBI5020 LED驱动
  14. Qt编写安防视频监控系统11-动态换肤
  15. 深入浅出理解FFT算法。通俗易懂,xilinxIP核仿真
  16. Python中使用Tkinter 快速布局编写桌面GUI程序
  17. 加米谷学院大数据培训课程安排
  18. ISP是什么?我们常用的ISP
  19. C#注册系统热键F2、F3自动输入魔兽秘籍
  20. 计算机必懂的英文单词和缩写

热门文章

  1. 【级数求和】C语言解析
  2. clo*******e:项目管理随记
  3. C++中的糖果——缺省参数、内联函数、auto及nullptr关键字
  4. android tv闹钟_Android 平台有哪些闹钟应用值得推荐?
  5. 《伟大的小细节:互联网产品设计中的微创新思维》——2.2 必经流程简化
  6. 账号泄露如何检测查询
  7. 软件测试这些年的变化及未来发展趋势
  8. Qt 之图形(QPainterPath)
  9. 硬件看门狗的选择与设计
  10. Here document使用方法总结