爬取校花图片保存到本地文件夹下(requests+re)
一、爬取网站分析
爬取目标网址:http://www.521609.com/tuku/shz/
通过分析可得,该界面数据使用静态加载方式,所以获取到网页源代码,再对源代码进行数据解析即可(使用re正则表达式进行数据的匹配)。
二、程序源代码
import re # 正则表达式
import os # 创建文件夹import requests
import urllib.request# 请求头设置
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"}
# 创建空文件夹,用来存储照片
dirName = 'ImgLibs'
if not os.path.exists(dirName):os.mkdir(dirName)
# 获取网页源代码
url = "http://www.521609.com/tuku/shz/"
page_text = requests.get(url = url,headers = headers).text# 解析源码
ex = '<li>.*?<img src="(.*?)" alt=.*?</li>'
img_src_list = re.findall(ex,page_text,re.S) #re.S用来解决换行问题
# 持久化存储
for src in img_src_list:src = 'http://www.521609.com' + srcimgPath = dirName + '/' + src.split('/')[-1]response = requests.get(url = src,headers = headers)img_data = response.contentwith open(imgPath,'wb') as fp:fp.write(img_data)print(imgPath,'下载成功')
三、运行结果
爬取校花图片保存到本地文件夹下(requests+re)相关推荐
- python爬取明星百度图片并存入本地文件夹
python爬取明星百度图片并存入本地文件夹 想要一个明星图片的时候,发现图片量过大,一张张保存太累,不太现实 这时候就可以用到爬虫,批量爬取图片 现在又出现一个问题,当发现一个明星爬完后,再爬取下一 ...
- Python爬取起点小说并保存到本地文件夹和MongoDB数据库中
Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...
- Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...
- python爬虫:爬取所有车标图片保存本地
python爬虫:爬取所有车标图片保存本地 这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标.上图: 总共209个牌子,以车牌子命名. 分析网页 一开始找了好 ...
- Python爬虫:正则表达式爬取校花网
#正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...
- scrapy 爬取校花网
原文链接: scrapy 爬取校花网 上一篇: scrapy 安装和简单命令 下一篇: scrapy 腾讯 招聘信息爬取 网址,爬取名称和对应的图片链接,并保存为json格式 http://www.x ...
- 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春
使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...
- 小爬虫爬取小猫咪图片并存入本地文件夹
小爬虫爬取小猫咪图片并存入本地文件夹 本人是安徽工业大学电气与信息工程学院研一学生,最近还不能开学真的是很糟心哦,由于自己比较笨吧,起步较晚还要忙着学习机器学习还有计算机视觉,但是总学这个感觉很闷也没 ...
- Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】
Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...
- Python爬虫练习笔记——爬取一本小说并保存为txt文件
最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...
最新文章
- LeetCode 146. LRU缓存机制(哈希链表)
- GitHubamp;gitee图床网站源码
- 自定义附加属性在XAML中的表示方法以及绑定的注意事项
- 英文操作系统下WebBrowser控件无法显示本地页面的解决方法
- linux创建n个进程的方法 --- fork
- 在Mac中关闭应用通知的两种方法
- 数学建模常用算法—模糊综合评价法(FCE)
- STM32系统学习——SPI(读写串行 FLASH)
- FPGA基本设计流程
- aardio - 【库】FlexCell表格组件
- 矩阵求逆的几种方法总结(C++)
- css高级应用,如何实现多行省略
- 去中心化隐私社交平台的十大金刚
- 前端实现文字竖向排版
- Object类中的hashCode方法
- 软件测试常考面试题-软件测试面试宝典
- 笔记本电池寿命 检测软件_改善Windows笔记本电脑电池寿命的6种方法
- EMC PowerPath
- 科协arduino四:蜂鸣器使用
- 微信小程序中如何引用weUI(踩坑记录)
热门文章
- 问题服务器防火墙的选择
- Python jiba 分词
- Android 在一个APP里打开另一个APP
- 骚操作——Word批量修改图片大小
- Acm - 隔壁老王买酒问题
- [js]整合google,51ditu和mapbar的地图API [此博文包含图片]
- 帕拉丁(山东)俱乐部大型西藏自驾游,天籁之旅,与心灵自由相约
- 1、 域名系统的主要功能是什么?互联网的域名结构是怎样的?域名系统中的本地域名服务器、根域名服务器、顶级域名服务器以及权限域名服务器有何区别?2、 假定要从已知的URL获得一个万维网文档。若该万维网服
- talentq测试题库rb_talentq测试题目拐
- python计算金星凌日