一、爬取网站分析

爬取目标网址:http://www.521609.com/tuku/shz/

通过分析可得,该界面数据使用静态加载方式,所以获取到网页源代码,再对源代码进行数据解析即可(使用re正则表达式进行数据的匹配)。

二、程序源代码

import re # 正则表达式
import os # 创建文件夹import requests
import urllib.request# 请求头设置
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"}
# 创建空文件夹,用来存储照片
dirName = 'ImgLibs'
if not os.path.exists(dirName):os.mkdir(dirName)
# 获取网页源代码
url = "http://www.521609.com/tuku/shz/"
page_text = requests.get(url = url,headers = headers).text# 解析源码
ex = '<li>.*?<img src="(.*?)" alt=.*?</li>'
img_src_list = re.findall(ex,page_text,re.S) #re.S用来解决换行问题
# 持久化存储
for src in img_src_list:src = 'http://www.521609.com' + srcimgPath = dirName + '/' + src.split('/')[-1]response = requests.get(url = src,headers = headers)img_data = response.contentwith open(imgPath,'wb') as fp:fp.write(img_data)print(imgPath,'下载成功')

三、运行结果


爬取校花图片保存到本地文件夹下(requests+re)相关推荐

  1. python爬取明星百度图片并存入本地文件夹

    python爬取明星百度图片并存入本地文件夹 想要一个明星图片的时候,发现图片量过大,一张张保存太累,不太现实 这时候就可以用到爬虫,批量爬取图片 现在又出现一个问题,当发现一个明星爬完后,再爬取下一 ...

  2. Python爬取起点小说并保存到本地文件夹和MongoDB数据库中

    Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...

  3. Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

    ####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...

  4. python爬虫:爬取所有车标图片保存本地

    python爬虫:爬取所有车标图片保存本地 这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标.上图: 总共209个牌子,以车牌子命名. 分析网页 一开始找了好 ...

  5. Python爬虫:正则表达式爬取校花网

    #正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...

  6. scrapy 爬取校花网

    原文链接: scrapy 爬取校花网 上一篇: scrapy 安装和简单命令 下一篇: scrapy 腾讯 招聘信息爬取 网址,爬取名称和对应的图片链接,并保存为json格式 http://www.x ...

  7. 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春

    使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...

  8. 小爬虫爬取小猫咪图片并存入本地文件夹

    小爬虫爬取小猫咪图片并存入本地文件夹 本人是安徽工业大学电气与信息工程学院研一学生,最近还不能开学真的是很糟心哦,由于自己比较笨吧,起步较晚还要忙着学习机器学习还有计算机视觉,但是总学这个感觉很闷也没 ...

  9. Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】

    Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...

  10. Python爬虫练习笔记——爬取一本小说并保存为txt文件

    最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...

最新文章

  1. LeetCode 146. LRU缓存机制(哈希链表)
  2. GitHubamp;gitee图床网站源码
  3. 自定义附加属性在XAML中的表示方法以及绑定的注意事项
  4. 英文操作系统下WebBrowser控件无法显示本地页面的解决方法
  5. linux创建n个进程的方法 --- fork
  6. 在Mac中关闭应用通知的两种方法
  7. 数学建模常用算法—模糊综合评价法(FCE)
  8. STM32系统学习——SPI(读写串行 FLASH)
  9. FPGA基本设计流程
  10. aardio - 【库】FlexCell表格组件
  11. 矩阵求逆的几种方法总结(C++)
  12. css高级应用,如何实现多行省略
  13. 去中心化隐私社交平台的十大金刚
  14. 前端实现文字竖向排版
  15. Object类中的hashCode方法
  16. 软件测试常考面试题-软件测试面试宝典
  17. 笔记本电池寿命 检测软件_改善Windows笔记本电脑电池寿命的6种方法
  18. EMC PowerPath
  19. 科协arduino四:蜂鸣器使用
  20. 微信小程序中如何引用weUI(踩坑记录)

热门文章

  1. 问题服务器防火墙的选择
  2. Python jiba 分词
  3. Android 在一个APP里打开另一个APP
  4. 骚操作——Word批量修改图片大小
  5. Acm - 隔壁老王买酒问题
  6. [js]整合google,51ditu和mapbar的地图API [此博文包含图片]
  7. 帕拉丁(山东)俱乐部大型西藏自驾游,天籁之旅,与心灵自由相约
  8. 1、 域名系统的主要功能是什么?互联网的域名结构是怎样的?域名系统中的本地域名服务器、根域名服务器、顶级域名服务器以及权限域名服务器有何区别?2、 假定要从已知的URL获得一个万维网文档。若该万维网服
  9. talentq测试题库rb_talentq测试题目拐
  10. python计算金星凌日