目标网站

如题,实现头像的爬取,我们先找我们需要爬取的网站:图片_朋友圈背景图_好看的图片_我要个性网 (woyaogexing.com)

我们再简单了解一下,爬虫,在我学习到目前浅浅的理解是,让爬虫去做我们每个人都能自己都可以做的事。例如,这个网站的头像我们可以一张一张的下载,但是我们学了爬虫之后,我们可以直接十几页,几十页的下载,效率直线上升。

安装库函数

然后我们简单说一下,用到的库函数:

1、requests
在命令行使用pip安装命令:pip install request
在py文件里导入:import requests

2、re()
在命令行使用pip安装命令:pip install re
在py文件里导入:import re

3.os(这个是自带的,不用下载,这个主要用来,对文件夹进行操作)

代码段

话不多说,上代码

import requests
import re
import os
#需求爬取https://www.woyaogexing.com/tupian/ 爬取男生头像if __name__ == '__main__':#创建一个存放图片的文件夹if not os.path.exists('./爬取头像(男)'):os.mkdir('./爬取头像(男)')url = 'https://www.woyaogexing.com/touxiang/nan/'headers = {'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.82Safari / 537.36'}for i in range(1,6):if i==1:new_url = urlelse:new_url = url +'index_' + str(i)+'.html'#一整张页面url全部爬取page_text = requests.get(url=new_url,headers=headers).text#聚焦爬虫将页面图片进行解析ex = '.*?<img class="lazy" src="(.*?)" width="180" height="180" />.*?'img_src_list = re.findall(ex,page_text,re.S)#遍历每个图片for src in img_src_list:src = 'https:' + src#获取图片img_data = requests.get(url=src,headers=headers).content#生成图片名称img_name = src.split('/')[-1]#图片存储路径img_path = './爬取头像(男)/'+img_namewith open(img_path,'wb') as fp:fp.write(img_data)print(img_name,'下载成功!!!')

运行过程

得到了,我们想要的头像图片,看到这里快去试试吧!

创作不易,点个赞再走吧!!!

简单爬虫爬取头像,妈妈再也不用担心我头像不够用了相关推荐

  1. Java实现印刷体转手写体—妈妈再也不用担心我被罚抄作业了

    Java实现印刷体转手写体-妈妈再也不用担心我被罚抄作业了 文章目录 Java实现印刷体转手写体-妈妈再也不用担心我被罚抄作业了 缘起 开始开发 测试效果 开源地址和总结 郑重声明 因本文中涉及到爬虫 ...

  2. 妈妈再也不用担心别人问我是否真正用过redis了

    1. Memcache与Redis的区别 1.1. 存储方式不同 1.2. 数据支持类型 1.3. 使用底层模型不同 2. Redis支持的数据类型 3. Redis的回收策略 4. Redis小命令 ...

  3. 漏洞扫描工具大全,妈妈再也不用担心我挖不到漏洞了

    漏洞扫描工具大全,妈妈再也不用担心我挖不到漏洞了 1.常见漏洞扫描工具 2.AWVS 3.AppScan 4.X-ray 5.Goby 6.Goby联动Xray 7.Goby联动御剑 1.常见漏洞扫描 ...

  4. ERC721:全生命周期精析,妈妈再也不用担心我不会玩NFT合约啦

    ERC721:全生命周期精析,妈妈再也不用担心我不会玩NFT合约啦 由于篇幅有限,本博客将围绕ERC721核心展开介绍,文章内容尽量做到通俗易懂,但其中不可避免地可能涉及一些新手不友好的概念,您可以查 ...

  5. python绘制横向柱状图 妈妈再也不用担心我不会画图了

    python绘制横向柱状图 妈妈再也不用担心我不会画图了 前言 实现代码 成果 前言 事情要从一次画图开始说起 当我开开心心搞到一堆数据,以为能够休息的时候,这时候我突然想起来,是不是绘制成柱状图更直 ...

  6. 计算机管理怎么给硬盘重新合区,一分钟学会磁盘合区,妈妈再也不用担心!

    原标题:一分钟学会磁盘合区,妈妈再也不用担心! 自从上一篇文章<一分钟搞定电脑磁盘分区,再也不求人!>中小编讲到了,日常生活中我们的电脑该如何区分区,留言区就有小伙伴问我,怎么把D盘的容量 ...

  7. 致小白:详解调幅收音机的原理 #妈妈再也不用担心我不懂收音机啦!

    标题:致小白:详解调幅收音机的原理 #妈妈再也不用担心我不懂收音机啦! 作者: Pleiades_Antares 出品: BDF元培调查组-北京市内包小组 版权声明:本作系完全原创,他人不得在原作者不 ...

  8. 妈妈再也不用担心我的公式写不出来了:一款公式输入神器实测

    本文推荐一个公式输入神器,只要截图就能识别公式,手写的公式都能识别.经过实测,几乎没有识别不出的公式,并可以输入到word.markdown.latex文件. 一.前言 写论文.博客,技术文档,公式输 ...

  9. 人工智能AI解奥数题,妈妈再也不用担心我的学习啦

    人工智能AI解奥数题,妈妈再也不用担心我的学习啦 原创 小智 大话人工智能 用人工智能求解奥数题 ▲▼◆■★ x ▽=★■◆▼▲   其中▲.▼.◆.■.★和▽ 分别是自然数.求▲.▼.◆.■.★和▽ ...

最新文章

  1. 对tomcat来说,每一个进来的请求(request)都需要一个线程,直到该请求结束。
  2. SQLALchemy 从数据库导出model
  3. 保证java的jar包在后台运行
  4. ASP.NET Core中使用IOC三部曲(一.使用ASP.NET Core自带的IOC容器)
  5. css-四种css导入方式
  6. 许昌学院计算机学院张伶俐,2019年教育科学学院毕业论文答辩工作安排
  7. GNU-Radio USRP Example
  8. python xlwt设置单元格的自定义背景颜色
  9. windows 64位PHP5.5配置xhprof
  10. DL-C_1_week_1_1
  11. PHP商城源码分销奖励/绑定关系设计
  12. 阿里云营收结构和基础设施规模
  13. Android编程权威指南[pdf]
  14. 码蹄集第23周赛(买礼物,召唤神龙,大促销,轨道探测)
  15. Oracle数据库PL/SQL块-存储函数和过程
  16. 工业互联网+危化安全生产综合管理平台怎样建
  17. 小小白的Android入门之计算器学习
  18. 厦门有哪些靠谱的互联网公司
  19. 自定义checkbox
  20. 卷走超大屏电视半壁江山:TCL屏实力说话

热门文章

  1. 基于springboot+vue框架的二手书交易网站
  2. Linux环境安裝oracle 11g
  3. 安装oracle-- redhat-- ins_ctx.mk问题
  4. 【每日面试】便利蜂 java后端开发
  5. GBase 8s 数据库问题知识库(2020-06-17更新)
  6. python tricks_Python Tricks
  7. 设置打印html页面大小,A4纸网页打印 html网页页面的宽度设置成多少
  8. 臀纬痈粕吃种鼗拼舅怂
  9. mysql 用select 语句的查询结果当作 insert 语句需要插入的值
  10. 《纸牌屋》:大数据只是噱头