简单爬虫爬取头像,妈妈再也不用担心我头像不够用了
目标网站
如题,实现头像的爬取,我们先找我们需要爬取的网站:图片_朋友圈背景图_好看的图片_我要个性网 (woyaogexing.com)
我们再简单了解一下,爬虫,在我学习到目前浅浅的理解是,让爬虫去做我们每个人都能自己都可以做的事。例如,这个网站的头像我们可以一张一张的下载,但是我们学了爬虫之后,我们可以直接十几页,几十页的下载,效率直线上升。
安装库函数
然后我们简单说一下,用到的库函数:
1、requests
在命令行使用pip安装命令:pip install request
在py文件里导入:import requests
2、re()
在命令行使用pip安装命令:pip install re
在py文件里导入:import re
3.os(这个是自带的,不用下载,这个主要用来,对文件夹进行操作)
代码段
话不多说,上代码
import requests
import re
import os
#需求爬取https://www.woyaogexing.com/tupian/ 爬取男生头像if __name__ == '__main__':#创建一个存放图片的文件夹if not os.path.exists('./爬取头像(男)'):os.mkdir('./爬取头像(男)')url = 'https://www.woyaogexing.com/touxiang/nan/'headers = {'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.82Safari / 537.36'}for i in range(1,6):if i==1:new_url = urlelse:new_url = url +'index_' + str(i)+'.html'#一整张页面url全部爬取page_text = requests.get(url=new_url,headers=headers).text#聚焦爬虫将页面图片进行解析ex = '.*?<img class="lazy" src="(.*?)" width="180" height="180" />.*?'img_src_list = re.findall(ex,page_text,re.S)#遍历每个图片for src in img_src_list:src = 'https:' + src#获取图片img_data = requests.get(url=src,headers=headers).content#生成图片名称img_name = src.split('/')[-1]#图片存储路径img_path = './爬取头像(男)/'+img_namewith open(img_path,'wb') as fp:fp.write(img_data)print(img_name,'下载成功!!!')
运行过程
得到了,我们想要的头像图片,看到这里快去试试吧!
创作不易,点个赞再走吧!!!
简单爬虫爬取头像,妈妈再也不用担心我头像不够用了相关推荐
- Java实现印刷体转手写体—妈妈再也不用担心我被罚抄作业了
Java实现印刷体转手写体-妈妈再也不用担心我被罚抄作业了 文章目录 Java实现印刷体转手写体-妈妈再也不用担心我被罚抄作业了 缘起 开始开发 测试效果 开源地址和总结 郑重声明 因本文中涉及到爬虫 ...
- 妈妈再也不用担心别人问我是否真正用过redis了
1. Memcache与Redis的区别 1.1. 存储方式不同 1.2. 数据支持类型 1.3. 使用底层模型不同 2. Redis支持的数据类型 3. Redis的回收策略 4. Redis小命令 ...
- 漏洞扫描工具大全,妈妈再也不用担心我挖不到漏洞了
漏洞扫描工具大全,妈妈再也不用担心我挖不到漏洞了 1.常见漏洞扫描工具 2.AWVS 3.AppScan 4.X-ray 5.Goby 6.Goby联动Xray 7.Goby联动御剑 1.常见漏洞扫描 ...
- ERC721:全生命周期精析,妈妈再也不用担心我不会玩NFT合约啦
ERC721:全生命周期精析,妈妈再也不用担心我不会玩NFT合约啦 由于篇幅有限,本博客将围绕ERC721核心展开介绍,文章内容尽量做到通俗易懂,但其中不可避免地可能涉及一些新手不友好的概念,您可以查 ...
- python绘制横向柱状图 妈妈再也不用担心我不会画图了
python绘制横向柱状图 妈妈再也不用担心我不会画图了 前言 实现代码 成果 前言 事情要从一次画图开始说起 当我开开心心搞到一堆数据,以为能够休息的时候,这时候我突然想起来,是不是绘制成柱状图更直 ...
- 计算机管理怎么给硬盘重新合区,一分钟学会磁盘合区,妈妈再也不用担心!
原标题:一分钟学会磁盘合区,妈妈再也不用担心! 自从上一篇文章<一分钟搞定电脑磁盘分区,再也不求人!>中小编讲到了,日常生活中我们的电脑该如何区分区,留言区就有小伙伴问我,怎么把D盘的容量 ...
- 致小白:详解调幅收音机的原理 #妈妈再也不用担心我不懂收音机啦!
标题:致小白:详解调幅收音机的原理 #妈妈再也不用担心我不懂收音机啦! 作者: Pleiades_Antares 出品: BDF元培调查组-北京市内包小组 版权声明:本作系完全原创,他人不得在原作者不 ...
- 妈妈再也不用担心我的公式写不出来了:一款公式输入神器实测
本文推荐一个公式输入神器,只要截图就能识别公式,手写的公式都能识别.经过实测,几乎没有识别不出的公式,并可以输入到word.markdown.latex文件. 一.前言 写论文.博客,技术文档,公式输 ...
- 人工智能AI解奥数题,妈妈再也不用担心我的学习啦
人工智能AI解奥数题,妈妈再也不用担心我的学习啦 原创 小智 大话人工智能 用人工智能求解奥数题 ▲▼◆■★ x ▽=★■◆▼▲ 其中▲.▼.◆.■.★和▽ 分别是自然数.求▲.▼.◆.■.★和▽ ...
最新文章
- 对tomcat来说,每一个进来的请求(request)都需要一个线程,直到该请求结束。
- SQLALchemy 从数据库导出model
- 保证java的jar包在后台运行
- ASP.NET Core中使用IOC三部曲(一.使用ASP.NET Core自带的IOC容器)
- css-四种css导入方式
- 许昌学院计算机学院张伶俐,2019年教育科学学院毕业论文答辩工作安排
- GNU-Radio USRP Example
- python xlwt设置单元格的自定义背景颜色
- windows 64位PHP5.5配置xhprof
- DL-C_1_week_1_1
- PHP商城源码分销奖励/绑定关系设计
- 阿里云营收结构和基础设施规模
- Android编程权威指南[pdf]
- 码蹄集第23周赛(买礼物,召唤神龙,大促销,轨道探测)
- Oracle数据库PL/SQL块-存储函数和过程
- 工业互联网+危化安全生产综合管理平台怎样建
- 小小白的Android入门之计算器学习
- 厦门有哪些靠谱的互联网公司
- 自定义checkbox
- 卷走超大屏电视半壁江山:TCL屏实力说话