不可错过的爬虫实例(一):教你爬取优美图库
一.前言
前几天有小伙伴私信我说能不能用爬虫爬取美女图片,那必须能啊,本次就用爬虫知识爬取你们想要的(懂得都懂),话不多说,正题开始!
二.准备工作
1.所用模块
- requests
- BeautifulSoup
- ThreadPoolExecutor
2.网页分析
示例网站:https://www.umei.net/katongdongman/dongmantupian/
说明:由于美女图有点暴露,csdn会过滤掉,有兴趣的可仿照自行爬取
2.1网页源代码分析!
通过分析容易发现图片的超链接(图中红色框内href属性值)藏在何处,通过BeautifulSoup模块解析网页可以拿到超清大图超链接
注意注意!!
有小伙伴会说,上图中不是有图片的路径吗,直接保存不行吗?请看下图:
这个图也太小了!!!怎么获取超清大图?再次解析,请看下图:
2.2对拿到的超链接进行再次解析(获取超清大图)
三.代码及成果展示
import requests from bs4 import BeautifulSoup from concurrent.futures import ThreadPoolExecutorurl = "https://www.umei.net/p/gaoqing/cn/" headers = {"user-agent": "chrom/10" } r = requests.get(url=url, headers=headers, timeout=300) r.encoding = "utf-8" demo = r.text soup = BeautifulSoup(demo, "html.parser") list = soup.find("div", attrs={"class": "TypeList"}).find_all("a", attrs={"class": "TypeBigPics"}) def getImg():n=1for item in list:href=item.get("href")href=url.split("/p")[0]+hrefr=requests.get(url=href,headers=headers,timeout=300).textsoup=BeautifulSoup(r,"html.parser")src=soup.find("div",attrs={"class","ImageBody"}).find("img").get("src")content=requests.get(src).contentf=open(f"{n}.jpg","wb")f.write(content)print(f"第{n}张爬取成功")n+=1 if __name__=='__main__':with ThreadPoolExecutor(50) as t:t.submit(getImg())
你只需要把初始链接改一下就可以想爬啥就爬啥哦
四. 结语
文章允许白嫖,代码允许白嫖,但是可以点赞评论吗,谢谢各位小伙伴啦。就到这里了,我们下期再见,记得订阅专栏哦!!
不可错过的爬虫实例(一):教你爬取优美图库相关推荐
- python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据
python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...
- python爬虫实例——某二手车数据爬取
某二手车网站数据爬取 要求: 找到所要爬取的网站网址(url): 今天案例的网址(url):https://www.guazi.com/gy/dazhong/o1/#bread. 观察网站,点开检查, ...
- Python爬虫,手把手教你爬取QQ空间信息
前言: 现在流行着一句话,遇事不要慌,朋友圈走一波.不知道还有多少人记得QQ空间,这可是QQ那个年代的青春啊,哎呀,不小心暴露了年龄.好了,废话不多说了,今天来教各位如何爬取QQ空间的信息. 环境搭建 ...
- php采集汽车之家demo,Python 爬虫实例(15) 爬取 汽车之家(汽车授权经销商)...
有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址. 本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程. 一:爬虫的目标: 打开汽车之家的链接:https: ...
- 爬虫实例(二)—— 爬取高清4K图片
大家好,我是 Enovo飞鱼,今天继续分享一个爬虫案例,爬取高清4K图片,加油
- python3爬虫豆瓣_Python3 爬虫实例(三) -- 爬取豆瓣首页图片
序 前面已经完成了简单网页以及伪装浏览器的学习.下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下. 首先,豆瓣首页部分图片展示 这只是截取的一部分.下面给出,整个爬虫程序. 爬虫程序 ...
- Python 爬虫实例(15) 爬取 汽车之家(汽车授权经销商)
有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址. 本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程. 一:爬虫的目标: 打开汽车之家的链接:https: ...
- Python 爬虫实例(1)—— 爬取百度图片
爬取百度图片 在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNightimport json ...
- Python 爬虫实例(4)—— 爬取网易新闻
自己闲来无聊,就爬取了网易信息,重点是分析网页,使用抓包工具详细的分析网页的每个链接,数据存储在sqllite中,这里只是简单的解析了新闻页面的文字信息,并未对图片信息进行解析 仅供参考,不足之处请指 ...
最新文章
- python中的enumerate 函数(编号的实现方式)
- 机器学习笔试题精选(一)
- c语言 五子棋 悔棋代码,跪求C语言五子棋悔棋部分实现
- under what circumstances, breakfast is essential
- 用区块链改变人工智能:去中心化带来数据新范式
- DataGridView里的Checkbox全选问题解决了!
- 【论文笔记】命名实体识别论文
- ffmpeg视频播放、格式转化、缩放等命令
- 挂载ntfs_Linux识别移动硬盘ntfs格式
- python学习笔记(十二)-- if __name__ == '__main__'
- Service Broadcast简单音乐播放功能
- redis缓存数据库技术
- java毕业设计软件技术课程学习系统设计与实现源码+lw文档+mybatis+系统+mysql数据库+调试
- 服务器系统能装cad吗,服务器主机用CAD画图吗
- 计算机音乐b型谱简单,尤克里里入门教程_尤克里里谱大全
- JavaScript基础--ECMAScript部分--李南江
- python直角三角形的两个直角边、求斜边_直角三角形斜边公式计算器 两个直角边边长的平方加起来等...
- Apache网页与安全优化
- 实验吧-天下武功唯快不破
- 微服务架构-ruoyi